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| 封面 设计 183720326@99q.com | 


自在 书 装 设计 


效 字 有 版权 声明 


图 灵 社 区 的 电子 书 没有 采用 专 有 客 
户 端 ， 您 可 以 在 任意 设备 上 ， 用 自 
己 喜 欢 的 浏览 器 和 PDF 阅读 器 进行 
阅读 。 
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内 容 提 要 


本 书 结合 C++ 和 OpenCV 全 面 讲 解 计算 机 视觉 编程 ， 不 仅 涵盖 计算 机 视觉 和 图 像 处 理 的 基础 知识 ， 而 
通过 完整 示例 讲解 OpenCV 的 重要 类 和 函数 。 主 要 内 容 包 括 OpenCV 库 的 安装 和 部 署 . 图 像 增 强 、 像 素 操作 、 
图 形 分 析 等 各 种 技术 ， 并 且 详 细 介 绍 了 如 何 处 理 来 自 文件 或 摄像 机 的 视频 ， 以 及 如 何 检 测 和 跟踪 移动 对 象 。 

第 3 版 针对 OpenCV 最 新 版 本 进行 了 修改 ， 调 整 了 很 多 国 数 和 算法 说 明 ， 还 增加 了 立体 图 像 深度 检测 、 
运动 目标 跟踪 、 人 脸 识 别 、 人 脸 定位 、 行 人 检测 等 内 容 ， 适 合计 算 机 视觉 新 手 、 专 业 软 件 开 发 人 员 、 学 生 
以 及 所 有 想 要 了 解 图像 处 理 和 计算 机 视觉 技术 的 人 员 学 习 参 考 。 




























































































4 著 [加 ] Robert Laganiere 
译 相 银 初 
责任 编辑 朱 剖 
执行 编辑 夏 静 文 
责任 印 制 ” 周 异 亮 
儿 人 民 邮 电 出 版 社 出 版 发 行 ”北京 市 丰台 区 成 寿 寺 路 11 号 
邮编 “100164 电子 邮件 31S@ptpress.com.cn 
网 址 ”http://www.ptpress.com.cn 
北京 印刷 
本 : 800X1000 1/16 
张 : 20.25 
: 479 千 字 2018 年 5 月 第 1 版 
: 1-3500 册 2018 年 5 月 北京 第 1 次 印刷 
著作 权 合同 登记 号 ”图 字 : 01-2017-2566 号 


< 


eh 

















中 
































定价 ， 79.00 元 
读者 服务 热线 : (010)51095186 转 600” 印 装 质 量 热线 (010)81055316 
反 盗 版 热线 : (010)81055315 
广告 经 营 许可 证 : 京东 工商 广 登 字 20170147 号 


版 权 声明 


Copyright © 2017 Packt Publishing. First published in the English language under the title OpenCV 3 
Computer Vision Application Programming Cookbook, Third Edition. 


Simplified Chinese-language edition copyright © 2018 by Posts & Telecom Press. All rights reserved. 











本 书 中 文 简体 字 版 由 Packt Publishing 授权 人 民 邮 有 





不 得 以 任何 方式 复制 或 抄 玲 本 书 内 容 。 
版 权 所 有 ， 侵 权 必 究 。 


有 出 版 社 独 家 出 版 。 未 


经 出 版 者 书面 许可 ， 


计算 机 视觉 ， 人 工 智能 的 眼睛 


如 今 科 技 界 最 热门 的 词语 , 非 人 工 智 能 莫 属 。 人 工 智 能 就 是 要 让 机 顺 跟 人 一 样 ， 能 听 懂 ,能 
看 仅 ， 会 思考 。 在 这 些 技能 中 ,“ 看 懂 ” 是 最 重要 的 ， 因 为 不 管 是 在 现实 世界 还 是 网 络 空间 中 ， 
大 部 分 信息 都 是 通过 视觉 获取 的 。“ 一 图 胜 千 言 ”说 的 就 是 这 个 道理 。 如 果 看 不 懂 外 部 世界 ， 不 
能 感知 外 部 场景 的 变化 并 做 出 反应 ， 是 很 难 称 为 “智能 ”的 。 

计算 机 视觉 就 是 人 工 智能 的 眼睛 ,是 机 器 认识 世界 、 感 知 变化 的 窗口 ,证 机 器 能 真正 看 懂 外 
部 世界 。 在 工商 业 领域 , 计算 机 视觉 的 应 用 越 来 越 多 ， 比 如 人 们 用 它 来 识别 图 片 或 视频 中 有 没有 
人 ， 判断 图 中 的 人 是 谁 ， 判 断 前 方 有 没有 车 辆 或 行人 、 有 什么 交通 标志 ， 等 等 。 













































































本 书 特色 


本 书 全 面 而 系统 地 介绍 了 计算 机 视觉 领域 最 著名 的 开源 程序 库 一 一 OpenCV。 本 书 不 只 是 简 
单列 出 了 各 种 函数 和 类 ， 而 是 由 浅 入 深 地 介绍 了 OpenCV 及 有 关 算 法 ， 并 通过 详细 的 实用 案例 ， 
让 读者 从 零 开始 学 习 计 算 机 视觉 和 OpenCV， 真 正 掌握 相关 程序 的 开发 方法 。 

通过 阅读 本 书 ， 你 将 了 解 计算 机 视觉 的 基础 知识 ， 知 道 有 关 算 法 的 来 龙 去 脉 ， 掌 握 OpenCV 
的 总 体 架 构 和 常用 功能 ,学 会 用 OpenCV 解决 具体 问题 ,本 书 将 带 你 进入 图 像 和 视频 分 析 的 世界 ， 
揭 开 图 像 识别 、 三 维 重建 、 目 标 跟 踪 、 人 脸 识别 等 技术 的 神秘 面纱 。 
































第 3 版 简介 


这 几 年 计算 机 视觉 领域 发 展 迅 猛 ，OpenCyVy 也 在 持续 升级 。 本 书 第 3 版 针对 OpenCV 最 新 版 
本 进行 了 修改 , 调整 了 很 多 函数 和 算法 说 明 ， 还 增加 了 立体 图 像 深度 检测 、 运 动 目标 跟踪 、 人 脸 
识别 、 人 脸 定 位 、 行 人 检测 等 内 容 。 
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4 读者 朋友 们 批评 指正 。 





于 本 人 水 平 有 限 , 书 中 难免 有 


2018 年 1 月 于 深圳 


了 中 


前 





如 今 , 计算 机 视觉 和 图 像 分 析 技术 的 应 用 越 来 越 广泛 ， 例 如 增强 现实 、 辅 助 驾 驶 、 视 频 监 控 
等 , 但 是 要 让 计算 机 真正 看 懂 现 实 世 界 , 还 有 大 量 的 工作 要 做 。 随 着 高 性 能 又 廉价 的 计算 设备 和 
视觉 传感器 的 出 现 , 创建 复杂 的 图 像 处 理 程序 比 以 往 任 何 时 候 都 要 容易 。 虽 然 在 图 像 和 视频 处 理 
领域 有 很 多 软件 工具 和 库 可 以 选用 ,但 如 果 想 开发 出 智能 的 计算 机 视觉 程序 ，OpenCV 是 很 好 的 


选择 。 


OpenCV (Open source Computer Vision ) 是 一 个 开源 程序 库 ， 包 含 了 500 多 个 用 于 图 像 和 视 
频 分 析 的 优化 算法 。 该 程序 库 建立 于 1999 年 , 目前 在 计算 机 视觉 领域 的 研发 人 员 社区 中 非常 流行 ， 
被 用 作 主 要 开发 工具 。OpenCV 最 初 由 英特尔 公司 的 Gary Bradski 带领 一 个 小 组 开发 , 其 目的 是 推 
动 计算 机 视觉 的 研究 ， 促进 基于 大 量 视觉 处 理 、CPU 密集 型 应 用 程序 的 开发 。 在 一 系列 beta 版 本 
后 ，1.0 版 于 2006 年 发 布 。 第 二 个 重要 版 本 是 2009 年 发 布 的 OpenCV 2， 它 做 了 一 些 重要 改动 ， 
特别 是 本 书 所 用 的 新 C++ 接口 。OpenCV 于 2012 年 改组 为 一 个 非 营 利 基 金 会 (http:/opencv.org/ )， 
依靠 众 筹 进行 后 续 开发 。 


OpenCYV 在 2013 年 升级 到 OpenCV 3， 主 要 的 变化 是 提升 了 易 用 性 。 此 外 ，OpenCy 的 结构 
也 有 所 调整 , 去 掉 了 一 些 不 必要 的 依赖 项 , 一 些 较 大 的 模块 被 分 割 成 多 个 小 模块 , 还 简化 了 API。 
本 书 为 《OpenCV 计算 机 视觉 编程 攻略 》 的 第 3 版 ， 首 次 引入 了 OpenCV 3 的 内 容 ， 并 且 对 旧版 
本 中 的 所 有 编程 方法 进行 了 审核 和 更 新 , 还 增加 了 很 多 新 内 容 以 更 全 面 地 覆盖 程序 库 的 主要 功能 
点 。 本 书 介绍 了 程序 库 的 很 多 功能 ， 并且 讲述 了 如 何 使 用 这 些 功能 完成 特定 的 任务 , 这样 做 并 不 
是 为 了 详细 罗列 OpenCV 中 的 所 有 因数 和 类 ， 而 是 为 读者 提供 从 零 起 步 开 发 应 用 的 方法 。 本 书 还 
探讨 了 图 像 分 析 的 基本 概念 ， 介 绍 了 计算 机 视觉 的 一 些 重要 算法 。 
本 书 将 带 你 走 进 图 像 和 视频 分 析 的 世界 , 但 这 只 是 个 开始 , 因为 OpenCV 还 在 不 断 地 演变 和 
展 。 你 可 以 访问 OpenCYV 的 在 线 文档 ( http://opencv.org/ ) 获取 最 新 资料 ， 也 可 以 访问 本 书 作者 
的 个 人 网 站 www.laganiere.name 了 解 有 关 本 书 的 最 新 信息 。 
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内 容 速 览 
第 1 章 将 介绍 OpenCV 库 , 演示 如 何 构建 一 个 可 以 读 取 并 显示 图 像 的 简单 应 用 , 并 介绍 基本 








的 OpenCYV 数据 结构 。 
第 2 章 将 解释 读 取 图 像 的 过 程 , 描述 扫描 图 像 的 不 同方 法 , 让 你 能 在 每 一 个 像素 上 执行 操作 。 


第 3 章 涵 盖 各 种 面向 对 象 设计 模式 的 使 用 案例 , 这 些 设 计 模 式 能 帮助 你 更 好 地 构建 计算 机 视 
觉 程序 。 这 一 章 也 将 讨论 图 像 中 有 关 颜 色 的 概念 。 


第 4 章 将 解释 如 何 计算 图 像 的 直方 图 ,以 及 如 何 用 直方 图 修改 图 像 。 这 一 章 还 将 介绍 基于 直 
方 图 的 各 种 应 用 ， 包 括 图 像 分 割 、 目 标 检 测 和 图 像 检索 。 


第 5 章 将 探讨 数学 形态 学 的 概念 ， 展示 不 同 的 算 子 , 并 解释 如 何 用 这 些 算 子 检测 图 像 中 的 边 
界 、 角 点 和 区 段 。 


第 6 章 将 讲解 频率 分 析 和 图 像 滤波 的 原理 , 介绍 低 通 滤 波 器 和 高 通 滤 波 器 在 图 像 处理 中 的 应 
用 ， 并 介绍 导数 算 子 的 概念 。 


第 7 章 将 重点 介绍 儿 何 图 像 特征 的 检测 方法 ,解释 如 何 提取 图 像 中 的 轮廓 、 直 线 和 连续 区 域 。 

第 8 童 将 介绍 图 像 的 几 种 特征 点 检测 器 。 
章 将 解释 如 何 计算 兴趣 点 描述 子 ， 并 用 其 在 图 像 之 间 匹 配 兴趣 点 。 

第 10 章 将 探讨 同一 场景 中 两 个 图 像 之 间 的 投影 关系 , 以 及 如 何 从 图 像 中 检测 出 特定 的 目标 。 


第 11 章 将 介绍 如 何 重 构 三 维 场景 , 即 利 用 多 个 图 像 重 构 某 个 场景 的 三 维 元 素 , 并 还 原 出 相机 
的 姿态 。 本 章 还 将 讲解 相机 标定 的 过 程 。 


第 12 章 将 提出 一 个 读 写 视频 序列 和 处 理 帧 的 框架 , 并 且 展 示 如 何 提取 在 摄像 机 前 移动 的 前 
景物 体 。 


第 13 章 将 介绍 跟踪 运动 目标 的 方法 ,包括 如 何 计算 视频 中 的 表 观 运动 ， 如 何 跟踪 图 像 序列 
中 的 运动 物体 。 


第 14 章 将 介绍 机 器 学 习 的 基本 概念 ， 并 利用 图 像样 本 构建 物体 分 类 器 。 





































































































阅读 须知 


本 书 基于 OpenCV 库 的 CH+ API 展开 介绍 , 因此 你 需要 有 使 用 C++ 语言 的 经 验 。 另 外 , 你 还 
需要 一 个 良好 的 C++ 开发 环境 以 便 运行 和 试用 书 中 的 例子 ， 常 用 的 开发 环境 有 Microsoft Visual 
Studio 和 Qt。 


d 


viii 前 


读者 对 象 

本 书 适合 准备 用 OpenCYV 库 开 发 计算 机 视觉 应 用 的 C+ 初学 者 ,也 适合 想 了 解 计算 机 视觉 统 
程 概念 的 专业 软件 开发 人 员 。 本 书 可 作为 大 学 计算 机 视觉 课程 的 教材 , 也 是 一 本 非常 优秀 的 参考 
书 ， 可 供 图 像 处 理 和 计算 机 视觉 方面 的 研究 生 和 科研 人 员 使 用 。 














小 标题 


本 书 将 经 常用 到 一 些小 标题 ( 准备 工作 、 如 何 实现 、 实 现 原 理 、 扩 展 阅 读 、 参 阅 )。 为 便于 
理解 ， 对 小 标题 的 使 用 做 出 以 下 约定 。 








准备 工作 
这 部 分 将 对 准备 实现 的 功能 做 简要 介绍 ， 建 立 所 需 的 软件 环境 并 进行 初步 设置 。 














如 何 实现 
这 部 分 将 讲解 实现 该 功能 的 具体 步 又 。 





实现 原理 
这 部 分 将 详细 解释 该 功能 的 内 部 原理 。 








扩展 阅读 
这 部 分 是 补充 知识 ， 以 便 读者 深入 理解 相关 知识 点 。 
参阅 


这 部 分 将 列 出 一 些 相关 的 网 址 。 


排版 规范 
本 书 使 用 不 同 的 文本 样式 区 分 不 同类 型 的 内 容 ， 下 面 是 一 些 样式 示例 和 相关 说 明 。 


程序 代码 、 数 据 库 的 表 、 用 户 输入 等 内 容 以 这 种 格式 显示 :“ 可 以 用 include 指令 包含 额 
外 的 内 容 。” 





i 





代码 块 的 格式 为 : 


// 用 LaplacianZC 类 计算 拉 普 拉 斯 值 

LaplacianzC laplacian; 

laplacian.setAperture(7); // 7X7 拉 普 拉 斯 算 子 
cv::Mat flap= laplacian.computeLaplacian (image); 
laplace= laplacian.getLaplacianImage(); 


需要 特别 注意 的 代码 行 ， 用 加 粗 字 体 表示 : 


// 用 LaplacianZC 类 计算 拉 普 拉 斯 值 

LaplacianzC laplacian; 

laplacian.setAperture(7); // 7Xx7 上 拉 普 拉 斯 算 子 
cv::Mat flap= laplacian.computeLaplacian (image); 
laplace= laplacian.getLaplacianImage(); 














新 名 词 和 重要 内 容 会 用 黑体 字 表 示 。 屏 幕 上 菜单 或 对 话 杠 
下 个 页 面 。 
读者 反馈 


我 们 一 贯 欢 迎 读者 的 反馈 意见 。 请 告诉 我 们 你 对 本 书 的 看 法 ， 喜 欢 或 不 喜欢 哪些 内 容 。 这 



































的 显示 形式 为 : “点击 下 一 步 


进入 


文 些 





反馈 能 帮助 我 们 创作 出 真正 对 读 考 有 所 神 益 的 内 容 。 
一 般 性 的 反馈 意见 ， 请 直接 发 邮件 到 feedback@packtpub.com， 并 在 邮件 标题 中 注 明 书 名 。 
如 果 你 是 某 一 方面 的 专家 并 愿意 参与 写作 或 合作 著 书 ， 请 访问 www.packtpub.com/authors 查 
看 作者 指南 。 


客户 支持 
现在 你 已 经 拥有 了 一 本 由 Packt 出 版 的 书 ， 为 了 让 你 的 付出 得 到 最 大 的 回报 ， 我 们 还 为 你 提 
供 了 其 他 许多 方面 的 服务 ， 请 注意 以 下 信息 。 


下 载 代码 


你 可 以 用 http:/www.packpub.comd 的 账号 下 载 本 书 代码 ”"。 如 果 你 是 从 其 他 地 方 购买 的 本 书 
英文 版 ， 那 么 可 以 访问 http://www. packtpub.com/support 并 注册 ， 然 后 会 通过 邮件 接收 到 文件 。 








下 载 代码 文件 的 步骤 如 下 所 示 。 








Qa 本 书 中 文 版 的 读者 可 免费 注册 iTuring.cn， 至 本 书页 面 (http://www.ituring.com.cn/book/1962 ) 下 载 。 一 一 编者 注 

















(1) 使 用 E-mail 和 密码 登录 网 站 。 

(2) 鼠标 移动 到 SUPPORT 标签 。 

(3) 点 击 Code Downloads & Errata。 

(4) 根据 书 名 搜索 。 

(5) 选择 需要 下 载 代码 的 图 书 。 

(6) 在 下 拉 列 表 中 选择 图 书 的 购买 方式 。 
(7) 点 击 Code Download。 


也 可 以 在 Packt Publishing 网 站 搜索 本 书 ， 进 入 本 书页 面 后 点 击 Code Files 下 载 代 码 。 注 意 ， 
登录 后 才能 进行 有 关 操 作 。 


可 以 用 以 下 工具 解压 代码 : 


口 WinRAR /7-Zip (Windows); 
口 Zipeg /iZip/ UnRarX (Mac); 
口 7-Zip / PeaZip (Linux)。 








此 外 还 可 以 在 https://github.com/PacktPublishing/OpenCV3-Computer-Vision-Application-Programming- 
Cookbook-Third-Edition 下 载 代码 。https://github.com/PacktPublishing/ 上 还 有 其 他 图 书 的 代码 ， 欢 
迎 下 载 。 


访问 本 书 作者 的 代码 库 https://github.com/laganiere 也 能 下 载 到 最 新 代码 。 


下 载 书 中 的 彩色 图 片 


为 方便 读者 理解 输出 中 的 变化 ， 我 们 已 将 书 中 用 到 的 截图 、 图 表 等 彩色 图 片 做 成 了 一 个 
PDF 文件 。 要 下 载 该 PDF 文件 , 可 以 访问 https://www.packtpub.com/sites/default/files/downloads/ 
OpenCV3ComputerVisionApplicationProgrammingCookbookTIhirdEditionColorImages.pdf。 
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图 像 编程 入 门 








本 章 将 开始 OpenCyV 库 的 学 习 之 旅 ， 你 将 学 到 : 


口 如 何 安 装 OpenCV 库 ; 

口 如 何 装载 、 显 示 和 存储 图 像 ; 
口 深入 理解 cv: :Mat 数据 结构 ; 
口 定义 ROI ( 感 兴趣 区 域 ) 。 











1.1 简介 


本 章 将 介绍 OpenCV 的 基本 要 素 , 并 演示 如 何 完 成 最 基本 的 图 像 处 理 任务 : 读 取 、 显 示 和 存 
图 像 。 在 开始 之 前 ， 首 先 需要 安装 OpenCV 库 。 安 装 过 程 非常 简单 ，1.2 节 会 详细 介绍 。 


所 有 的 计算 机 视觉 应 用 程序 都 涉及 对 图 像 的 处 理 , 因此 OpenCV 提供 了 一 个 操作 图 像 和 和 矩 阵 
的 数据 结构 。 此 数据 结构 功能 非常 强大 ,具有 多 种 实用 属性 和 方法 。 此 外 ， 它 还 包含 先进 的 内 存 
管理 模型 , 对 于 应 用 程序 的 开发 大 有 帮助 。 本 童 最 后 两 节 将 介绍 如 何 使 用 这 个 重要 的 OpenCV 数 
据 结 构 。 











中 














1.2 安装 OpenCV 库 


OpenCV 是 一 个 开源 的 计算 机 视觉 程序 库 ， 可 在 Windows、Linux、Mac、Android、iOS 等 多 
种 平台 下 运行 。 在 BSD 许可 协议 下 ， 它 可 以 用 于 学 术 应 用 和 商业 应 用 的 开发 ， 可 随意 使 用 、 发 
布 和 修改 。 本 节 将 介绍 如 何 安装 OpenCV 程序 库 。 

















1.2.1 准备 工作 


你 可 以 在 OpenCV 官方 网 站 http://opencv.org/ 获 取 最 新 版 程序 库 、 在 线 API 文档 以 及 诸多 其 他 
有 用 的 资源 。 
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1.2.2 ”如 何 实现 


在 OpenCV 网 站 上 找到 最 新 版 本 ， 选 择 你 使 用 的 平台 ( Windows、Linux/Mac 或 iOS ), 下 载 
OpenCV 包 并 解压 。 解 压 时 会 生成 opencv 目录 。 最 好 修改 这 个 目录 名 称 , 以 体现 出 当前 版 本 号 ( 例 
如 在 Windows 系统 中 可 用 C:\opencv-3.2 )。 该 目录 下 的 文件 和 子 目录 构成 了 程序 库 。 请 注意 ， 有 
一 个 sources 目录 ， 它 包含 所 有 的 源 代码 文件 。( 是 的 ， 它 是 开源 的 ! ) 


要 完成 程序 库 的 安装 并 投入 使 用 , 还 有 一 个 重要 的 步骤 : 针对 所 选 环境 生成 程序 库 的 二 进 制 
文件 。 这 时 必须 选 定 创建 OpenCV 程序 所 用 的 目标 平台 : 使 用 哪 种 操作 系统 ?使 用 什么 编译 屁 ? 
使 用 哪个 版 本 ? 32 位 还 是 64 位 ? 正 因为 选项 众多 ， 才 必须 根据 实际 需要 生成 二 进 制 文件 。 


在 集成 开发 环境 (integrated development environment，IDE ) 中 也 可 以 设置 这 些 选 项 。 请 注 
意 ， 库 文件 也 是 预先 编译 好 的 ， 如 果 与 环境 匹配 ( 可 查看 build 目录 )， 可 以 直接 使 用 。 如 果 二 进 
制 文件 能 满足 需求 ， 就 可 以 开始 使 用 了 。 


需要 特别 注意 的 是 ， 从 第 3 版 开始 ，OpenCV 已 经 分 成 了 两 个 主要 部 分 。 第 一 部 分 是 包含 了 
成 熟 算法 的 OpenCV 主 源码 库 ,， 也 就 是 之 前 下 载 的 内 容 。 此 外 还 有 一 个 独立 的 代码 库 ， 它 包含 了 
最 近 加 入 OpenCV 的 计算 机 视觉 算法 ,如 果 只 想 使 用 OpenCV 的 核心 函数 ,就 不 需要 这 个 contrip 
包 ; 但 如 果 要 使 用 最 先进 的 算法 ， 就 很 可 能 需要 这 个 额外 的 模块 。 实 际 上 ,本 书 就 介绍 了 其 中 的 
几 种 高 级 算法 ， 因 此 你 需要 准备 好 contrip 模块 一 一 到 https://github.com/opencv/opencv_contrib 
即 可 下 载 额外 的 OpenCV 模块 (zip 文件 )。 模 块 解 压 后 ， 可 以 放 在 任何 目录 下 ， 但 需要 能 够 在 
opencv_contrib-master/modules 中 找到 。 方 便 起 见 ， 可 以 将 文件 夹 改 名 为 contrib ， 并 直接 复制 到 
主 程序 包 的 sources 目录 下 。 在 这 些 额 外 的 模块 中 ， 你 可 以 只 选取 和 保存 需要 使 用 的 ; 不 过 为 了 
避免 麻烦 ， 这 里 先 全 部 保存 下 来 。 


现在 就 可 以 开始 安装 了 ! 编译 OpenCV 时 , 强烈 建议 你 使 用 CMake 工具 ( 可 从 http://cmake. 
org 下 载 )。CMake 也 是 一 个 开源 软件 ,采用 平台 无 关 的 配置 文件 ,可 以 控制 软件 的 编译 过 程 。 它 
可 以 根据 不 同 的 环境 ， 生 成 编译 所 需 的 makefile 或 solution 文件 ， 因 此 它 是 必须 下 载 和 安装 的 。 
你 还 可 以 根据 需要 下 载 可 视 化 工具 包 ( Visualization Toolkit，VTK )， 详 情 请 参见 1.2.4 节 。 


你 可 以 在 命令 行 中 运行 cmake， 但 是 采用 图 形 界面 (cmake-gui ) 的 CMake 会 更 加 容易 。 
如 果 使 用 图 形 界面 ， 只 需要 指定 OpenCYV 源 程 序 和 二 进 制 文件 的 路 径 ， 点 击 Configure 并 选择 编 
译 器 即 可 。 




























































































































































































1.2 安装 OpenCV 库 3 











人 CMake 3.4.1 - C/opencv-3.2/build a El 





File Tools Options Help 
Where is the source code: |C:/opencv-3.2/sources Browse Source... 


Where to build the binaries: |C:/opencv-3.2/build ”| Browse Build... 
Search: 厂 Groupe 本 


A cmake-gui ? x 
Name 
Specify the generator for this project 
Visual Studio 14 2015 Win64 学 
Press Configure to update 
d ® Use default native compilers 


Configure Generate © Specify native compilers 


© Specify toolchain file for cross-compiling 


© Specify options for cross-compiling 





本 























除了 基本 设置 ，CMake 还 有 许多 选项 ， 例 如 是 否 安装 文档 、 是 否 安装 额外 的 库 。 如 果 不 是 
非常 熟悉 ， 最 好 采用 默认 设置 。 但 因为 这 次 需要 包含 附加 模块 ， 所 以 需要 指定 这 些 模 块 的 安装 
目录 。 























A CMake 3.4.1 - C:/opencv-3.2/build = x 

File Tools Options Help 

Where is the source code: [c/opencev-3.2/Jsourced Browse Source... 

Where to build the binaries: [c/openov-3.2build Browse Build... 

Search: | | 厂 Grouped 厂 Advanced 时 AddEntry | % Remove Entry 
Name Value 全 


OPENCV EXTRA MODULES PATH C:/opencv-3.2/sources/contrib 





Press Configure to update and display new values in red, then press Generate to generate 
selected build files. 


Configure Generate | Current Generator: Visual Studio 14 2015 Win64 


ERR AE RY 六 
Configuring done v 
> 


间 定 附加 模块 后 ， 再 次 点 击 Configure。 现 在 可 以 点 击 Generate 按钮 生成 项 目 文件 了 ， 这 些 
项 目 文件 将 用 来 编译 程序 库 。 这 是 安装 过 程 的 最 后 一 个 步 又 ， 会 生成 能 在 指定 开发 环境 下 使 用 
的 程序 库 。 如 果 你 选用 MS Visual Studio， 那 么 只 需要 打开 由 CMake 创建 的 位 于 顶层 的 解决 方案 
文件 (通常 是 OpenCV.sln 文件 )， 然 后 选择 INSTALL 项 目 (CMakeTargets 下 ) 并 执行 Build 指 
令 (使 用 右键 )。 
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[| OpenCV - Microsoft Visual Studio YX 总 | Quick Launch (Ctrl+Q) DIE Hx 
File Edit View Project Build Debug Team Tools Test Robert Laganiere ~ 


Analyze Window Help 
> | 交 - 安 因由 | =| Debug ~ |x64 -| 
Solution Explorer 
名 | @-s 加 里 | Z 一 
Search Solution Explorer (Ctrl+ 


醒 zlib 
applications 
opencv_annotation 


xoqlool Jaloldxd JaNas 医 芝 


醒 opencv_createsamples 
本 opencv traincascade 
本 opencv_waldboost_detector 
CMakeTargets 
贺 INSTAL 
PACKAGE 
本 RUN_TESTS 
uninstall 
Output 园 ZERO_CHECK 
i extra 
醒 opencv_ modules 
本 opencv_perf tests 
本 opencv tests 
modules 


醒 opencv_ aruco 
opencv_bgsegm 
Db | "nenme bipinsnired 
[te Output Rau le Solution Explorer EI] ed 





This item does not support previewing 





如 果 要 得 到 Release 和 Debug 两 个 版 本 , 你 就 需要 编译 两 次 , 每 个 相应 的 配置 各 一 次 。 如 果 一 
切 顺利 , build 目录 下 将 自动 创建 install 目录 , 该 目录 下 有 关联 到 应 用 程序 的 OpenCV 库 的 所 有 二 
进 制 文件 ， 以 及 程序 需要 调用 的 动态 库 文件 。 别 忘 了 在 控制 面板 中 设置 环境 变量 PATH， 以 确保 
运行 程序 时 操作 系统 能 找到 这 些 dl 文件 ( 例如 Ci\opencv-3.2\build\installx64\vc14\bin )。 你 还 可 
以 定义 环境 变量 oPENCV_DIR， 让 它 指 向 INSTALL 路 径 。 这 样 ， 在 配置 其 他 工程 时 ，CMake 就 
能 找到 库 文 件 了 。 


在 Linux 环境 中 ， 可 以 用 CMake 生成 Makefile 文件 ， 然 后 运行 sudo make install 命令 
完成 安装 过 程 ; 也 可 以 使 用 打包 工具 aptget, 自动 完成 安装 过 程 。Mac 系统 则 可 以 使 用 Homebrew 
管理 工具 。 安 装 这 个 工具 后 ， 只 需要 输入 brew install opencv3 --with-contrib 即 可 完 
成 整个 OpenCV 安装 过 程 (输入 brew info opencv3 可 查看 选项 )。 
































1.2.3 ”实现 原理 


OpenCV 一 直 在 升级 ， 第 3 版 增加 了 很 多 新 功能 ， 也 提高 了 性 能 。 从 第 2 版 起 ，API 就 开始 
迁移 到 C++, 现在 已 经 基本 迁移 完毕 ,并 实现 了 更 一 致 的 接口 。 新 版 本 的 一 个 主要 变化 是 重 构 了 
库 模 块 ， 使 部 署 更 加 方便 。 它 创建 了 一 个 包含 最 新 算法 的 独立 库 (contrip 库 )， 其 中 包含 一 些 基 
于 特定 许可 协议 、 需 要 付费 才能 使 用 的 算法 。 这 样 做 的 好 处 是 , 开发 者 和 研发 人 员 可 以 在 OpenCV 
上 共享 最 新 的 功能 ， 同 时 能 确保 核心 API 的 稳定 性 和 易 维护 性 。 你 可 以 从 http:/opencv.org/ 下 载 
主体 模块 ， 而 附加 模块 则 必须 到 GitHub ( https://github.com/opencv/ ) 下 载 。 需 要 注意 的 是 ， 这 些 
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附加 模块 仍 在 开发 中 ， 它 们 的 算法 会 经 常 修 改 。 


OpenCYV 库 分 为 多 个 模块 : opencv_core 模块 包含 库 的 核心 功能 ，opencv_imgproc 模块 
包含 主要 的 图 像 处 理 函 数 ，opencv_highgui 模块 提供 了 读 写 图 像 和 视频 的 函数 以 及 一 些 用 户 交 
互 函 数 ， 等 等 。 在 使 用 某 个 模块 之 前 ， 需 要 包含 该 模块 对 应 的 头 文件 。 很 多 使 用 OpenCyV 的 应 用 
程序 会 在 文件 的 开头 处 声明 : 











#include <opencv2/core.hpp> 
#include <opencv2/imgproc.hpp> 
#include <opencv2/highgui .hpp> 


在 学 习 OpenCy 的 过 程 中 ， 你 会 逐步 发 现 它 的 众多 模块 中 包含 的 大 量 功 能 。 





1.2.4 扩展 阅读 


OpenCV 网 站 http://opencv.org/ 上 有 详细 的 安装 说 明 , 还 有 完整 的 在 线 文档 , 包括 几 个 针对 程 
序 库 中 不 同 组 件 的 教程 。 


1. 可 视 化 工具 包 和 cv: :viz 模块 


一 些 程序 会 利用 计算 机 视觉 技术 ,根据 图 像 重 构 某 个 场景 的 三 维 信息 。 在 处 理 三 维 数据 时 ， 
在 三 维 虚拟 世界 中 呈现 相关 结果 的 效果 往往 更 好 。 第 11 章 将 介绍 cv: :viz 模块 , 它 提 供 了 很 多 
函数 ， 用 于 在 三 维 环境 下 展示 场景 目标 和 相机 。 不 过 这 个 模块 是 基于 另 一 个 开源 库 VTK 的 。 
此 ， 如 果 要 使 用 cv: :viz 模块 ， 必 须 在 编译 OpenCYV 之 前 安装 VTK。 


可 以 从 http:/wwwvtk.org/ 下 载 VTK。 只 需 下 载 该 开源 库 并 执行 CMake， 即 可 在 开发 环境 中 创 
建 库 。 本 书 使 用 的 版 本 为 6.3.0。 此 外 ， 还 需要 创建 环境 变量 VTK_DIR， 让 它 指向 编译 文件 所 在 的 
文件 夹 。 在 使 用 CMake 安装 OpenCV 并 进行 配置 的 过 程 中 , 要 确保 WITH_VTK 选项 处 于 选中 状态 。 


2. OpenCV 开发 者 网 站 


OpenCV 是 一 个 开源 项 目 ， 非常 欢迎 用 户 来 添砖加瓦 。 它 被 托管 在 GitHub ( 提供 基于 Git 的 
版 本 控制 和 源 代码 管理 工具 的 Web 服务 ) 上 。 你 可 以 访问 开发 者 网 站 https://github.com/opencv/ 
opencvwiki。 除 此 之 外 ， 你 还 可 以 从 此 处 获取 已 经 开发 完毕 的 OpenCV 版 本 。 这 个 社区 使 用 Git 
作为 版 本 控制 系统 。 作 为 一 个 免费 、 开 源 的 软件 系统 ，Git 可 能 是 管理 源 代码 的 最 好 工具 。 










































































下 载 本 书 的 示例 代码 

本 书 示例 的 源 代码 已 经 托管 到 GitHub， 你 可 以 访问 作者 的 个 人 库 https://github.com/ 
人 oD laganiere 下 载 最 新 代码 。 凡 是 Packt 出 版 的 书 ， 都 可 以 在 http:/www.packtpub.com 

下 载 示 例 代码 。 如 果 从 其 他 途径 购买 了 本 书 , 你 可 以 访问 http://www.packtpub.com/ 

support 并 注册 账号 ， 我 们 会 将 代码 发 到 你 的 邮箱 。 
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1.2.5 ”参阅 


口 作者 的 网 站 (www.laganiere.name ) 上 有 安装 最 新 版 本 OpenCYV 库 的 详细 步 又 。 
口 有 关 源 代码 管理 的 方法 ， 可 参阅 https://git-sem.com/ 和 https://github.com/。 











1.3 ”装载 、 显 示 和 存储 图 像 


现在 开始 运行 第 一 个 OpenCV 应 用 程序 。 既然 OpenCV 是 用 来 处 理 图 像 的 , 那 就 先 来 演示 几 
个 图 像 应 用 程序 开发 中 最 基本 的 操作 : 从 文件 中 装载 输入 的 图 像 、 在 窗口 中 显示 图 像 、 应 用 处 理 
函数 再 保存 输出 的 图 像 。 











1.3.1 准备 工作 


使 用 你 喜欢 的 IDE (例如 MS Visual Studio 或 者 Qt ) 新 建 一 个 控制 台 应 用 程序 ， 使 用 待 填充 
内 容 的 main 函数 。 














1.3.2 ”如 何 实现 


首先 要 引入 定义 了 所 需 的 类 和 函数 的 头 文件 。 这 里 我 们 只 想 显示 一 幅 图 像 , 因此 需要 定义 了 
图 像 数 据 结构 的 核心 头 文件 和 包含 了 所 有 图 形 接口 函数 的 highgui 头 文件 : 











#include <opencv2/core.hpp> 
#include <opencv2/highgui .hpp> 


首先 在 main 函数 中 定义 一 个 表示 图 像 的 变量 ,在 OpenCV 中 , 就 是 定义 cv: :Mat 类 的 对 象 : 
cv::Mat image; // 创建 一 个 空 图 像 


这 个 定义 创建 了 一 个 尺寸 为 0x0 的 图 像 ,可 以 通过 访问 cv: :Mat 的 size 属性 来 验证 这 一 点 : 




















std::cout << "This image is " << image.rows << " x " 
<< image.cols << std::endl; 


接 下 来 只 需 调 用 读 函 数 ， 即 会 从 文件 读 入 一 个 图 像 ， 解 码 ， 然 后 分 配 内 存 : 
image= cv: :imread("puppy.bmp"); // 读 取 输 入 图 像 
现在 可 以 使 用 这 幅 图 像 了 , 但 是 要 先 检查 一 下 图 像 的 读 取 是 否 正 确 ( 如果 找 不 到 文件 、 文 件 
被 破坏 或 者 文件 格式 无 法 识别 ， 就 会 发 生 错 误 )。 用 下 面 的 代码 来 验证 图 像 是 否 有 效 : 
if (image.empty()) { // 错误 处 理 
// 未 创建 图 像 …… 


// 可 能 显示 一 个 错误 消息 
// 并 退出 程序 


























} 
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如 果 没 有 分 配 图 像 数据 ，empty 方法 将 返回 true。 


对 这 幅 图 像 的 第 一 个 操作 就 是 显示 它 一 一 你 可 以 使 用 highgui 模块 的 函数 来 实现 。 首 先 定 
义 用 来 显示 图 像 的 窗口 ， 然 后 让 图 像 在 指定 的 窗口 中 显示 出 来 : 

// 定义 窗口 (可 选 ) 

cvV::namedqWindqow("Original Image"); 

// 显示 图 像 

cvV::imshow("Original Image", image); 

可 以 看 到 ， 这 个 窗口 是 以 名 称 命 名 的 。 稍 后 可 以 用 这 个 窗口 来 显示 其 他 图 像 ， 也 可 以 用 不 同 
的 名 称 创建 多 个 窗口 。 运 行 这 个 应 用 程序 ， 可 看 到 如 下 的 图 像 窗 口 。 






































大 Original Image 





这 时 ， 我 们 通常 会 对 图 像 做 一 些 处 理 。OpenCV 提供 了 大 量 处 理 函 数 ， 本 书 将 对 其 中 的 一 些 
进行 深入 探讨 。 先 来 看 一 个 水 平 翻转 图 像 的 简单 函数 。OpenCV 中 的 有 些 图 像 转换 过 程 是 就 地 进 
行 的 ， 即 转换 过 程 直 接 在 输入 的 图 像 上 进行 (不 创建 新 的 图 像 )， 比 如 翻转 方法 就 是 这 样 。 不 过 ， 
我 们 总 是 可 以 创建 新 的 矩阵 来 存放 输出 结果 。 下 面 就 试 试 这 种 方法 : 

CV::Mat result; // 创建 另 一 个 空 的 图 像 

cv::flip(image,result,1); // 正 数 表 示 水 平 


// 0 表示 垂直 
// 负数 表示 水 平和 垂直 




















在 男 一 个 窗口 显示 结果 : 


cv::namedWindow ("Output Image"); // 输出 窗口 
cv::imshow("Output Image", result); 


因为 它 是 控制 台 窗口 ， 会 在 main 函数 结束 时 关闭 ， 所 以 需要 增加 一 个 额外 的 highgui 郴 
数 ， 待 用 户 键入 数值 后 再 结束 程序 : 
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cv::waitKey(0); // 0 表示 永远 地 等 待 按键 
// 键入 的 正 数 表示 等 待 的 毫秒 数 


我 们 可 以 在 男 一 个 窗口 上 看 到 输出 的 图 像 ， 如 下 所 示 。 


国 Output Image 








最 后 ， 可 以 使 用 highgui 函数 把 处 理 过 的 图 像 存 储 在 磁盘 里 : 
cv::imwrite("output.bmp"，result); // 保存 结果 


保存 图 像 时 会 根据 文件 名 后 缀 决定 使 用 哪 种 编码 方式 。 其 他 常见 的 受 支 持 图 像 格式 是 JPG、 
TIFF 和 PNG。 





1.3.3 ”实现 原理 


在 OpenCV 的 C++API 中 ， 所 有 类 和 函数 都 在 命名 空间 cv 内 定义 。 访 问 它们 的 方法 共有 两 
种 ， 第 一 种 是 在 定义 main 函数 前 使 用 如 下 声明 : 





using namespace cv; 


第 二 种 方法 是 根据 命名 空间 规范 给 所 有 OpenCV 的 类 和 函数 加 上 前 缀 cv: : ， 本 书 采用 的 就 
是 这 种 方法 。 添 加 前 缀 后， 代码 中 OpenCyV 的 类 和 函数 将 更 容易 识别 。 


highgui 模块 中 有 一 批 能 帮助 我 们 轻松 显示 图 像 并 对 图 像 进行 操作 的 函数 。 在 使 用 imreaa 
函数 装载 图 像 时 ,你 可 以 通过 设置 选项 把 它 转 换 为 灰 度 图 像 。 这 个 选项 非常 实用 ,因为 有 些 计算 
机 视觉 算法 是 必须 使 用 灰 度 图 像 的 。 在读 入 图 像 的 同时 进行 色彩 转换 ,可 以 提高 运行 速度 并 减少 
内 存 使 用 ， 做 法 如 下 所 示 : 


// 读 入 一 个 图 像 文件 并 将 其 转换 为 灰 度 图 像 
image= cv::imread("puppy.bmp", CV::IMREAD_ GRAYSCALE); 
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这 样 生成 的 图 像 由 无 符号 字 节 (unsigned byte，C++ 中 为 unsigned char ) 构成 , 在 OpenCV 
中 用 常量 cv_8U 表示 。 另 外 ， 即 使 图 像 是 作为 灰 度 图 像 保 存 的 ， 有 时 仍 需 要 在 读 人 时 把 它 转换 
成 三 通道 彩色 图 像 。 要 实现 这 个 功能 ， 可 把 imreag 函数 的 第 二 个 参数 设置 为 正 数 : 

// 读 取 图 像 ， 并 将 其 转换 为 三 通道 彩色 图 像 

image= cv::imread("puppy.bmp", CV::IMREAD_ COLOR); 

在 这 样 创建 的 图 像 中 ， 每 个 像素 有 3 字 节 ，OpenCV 中 用 cv_8UC3 表示 。 当 然 了 ， 如 果 输 
入 的 图 像 文件 是 灰 度 图 像 ， 这 三 个 通道 的 值 就 是 相同 的 。 最 后 ， 如 果 要 在 读 和 图像 时 采用 文件 本 
身 的 格式 ， 只 需 把 第 二 个 参数 设置 为 负数 。 可 用 channels 方法 检查 图 像 的 通道 数 : 


std::cout << "This image has " 
<< image.channels() << " channel (s)"; 


请 注意 ， 当 用 imread 打开 路 径 指 定 不 完整 的 图 像 时 ( 前面 例 子 的 做 法 )，imread 会 自动 采 
用 默认 目录 。 如 果 从 控制 台 运 行程 序 , 默认 目录 显然 就 是 当前 控制 台 的 目录 ; 但 是 如 果 直 接 在 IDE 
中 运行 程序 ， 默 认 目 录 通 常 就 是 项 目 文件 所 在 的 目录 。 因 此 ， 要 确保 图 像 文件 在 正确 的 目录 下 。 

当 你 用 imshow 显示 由 整数 ( cv_16U 表示 16 位 无 符号 整数 ，cvV_328 表示 32 位 有 符号 整 
数 ) 构成 的 图 像 时 ， 图 像 每 个 像素 的 值 会 被 除 以 256， 以 便 能 够 在 256 级 灰 度 中 显示 。 同 样 ， 在 
显示 由 浮 点 数 构成 的 图 像 时 ， 值 的 范围 会 被 假设 为 0.0 (显示 黑色 ) ~1.0 (显示 白色 )。 超 出 这 个 
范围 的 值 会 显示 为 白色 (大 于 1.0 的 值 ) 或 黑色 (小 于 0.0 的 值 )。 

highgui 模块 非常 适用 于 快速 构建 原型 程序 。 在 生成 程序 的 最 终 版 本 前 ,你 很 可 能 会 用 到 IDE 
提供 的 GUI 模块 ， 这 样 会 让 程序 看 起 来 更 专业 。 

这 个 程序 同时 使 用 了 输入 图 像 和 输出 图 像 ， 作 为 练习 ， 你 可 以 对 这 个 示例 程序 做 一 些 改 动 ， 
比如 改 成 就 地 处 理 的 方式 ， 也 就 是 不 定义 输出 图 像 而 直接 写 人 原 图 像 : 


cv::flip(image,image,1); // 就 地 处 理 






































































































































1.3.4 扩展 阅读 


highgui 模块 中 有 大 量 可 用 来 处 理 图 像 的 函数 , 它们 可 以 使 程序 对 鼠标 或 键盘 事件 做 出 响应 ， 
也 可 以 在 图 像 上 绘制 形状 或 写 人 文本 。 


1. 在 图 像 上 点 击 

通过 编程 ， 你 可 以 让 鼠标 在 置 于 图 像 窗口 上 时 运行 特定 的 指令 。 要 实现 这 个 功能 , 需 定义 一 
个 合适 的 回调 函数 。 回 调 函 数 不 会 被 显 式 地 调用 , 但 是 会 在 响应 特定 事件 ( 这 里 是 指 有 关 鼠 标 与 
图 像 窗口 交互 的 事件 ) 的 时 候 被 程序 调用 。 为 了 能 被 程序 识别 ， 回 调 函数 需要 具有 特定 的 签名 ， 
并 且 必 须 注册 。 对 于 鼠标 事件 处 理 函 数 ， 回 调 函 数 必须 具有 这 种 签名 : 





















































void onMouse( int event, int x, int y, int flags, void* param); 
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第 一 个 参数 是 整数 , 表示 触发 回调 函数 的 鼠标 事件 的 类 型 。 后 面 两 个 参数 是 事件 发 生 时 鼠标 
的 位 置 ， 用 像素 坐标 表示 。 参 数 flags 表示 事件 发 生 时 按 下 了 鼠标 的 哪个 键 。 最 后 一 个 参数 是 
指向 任意 对 象 的 指针 ， 作 为 附加 的 参数 发 送 给 函数 。 你 可 用 下 面 的 方法 在 程序 中 注册 回调 函数 : 











cv::setMouseCallback ("Original Image", onMouse, 
reinterpret_cast<void*>(&image)); 


在 本 例 中 ， 函 数 onMouse 与 名 为 Original Image ( 原始 图 像 ) 的 图 像 窗 口 建立 了 关联 ， 同 
时 把 所 显示 图 像 的 地 址 作为 附加 参数 传 给 函数 ,现在 ,只 要 用 下 面 的 代码 定义 回调 函数 onMouse， 
每 当 遇 到 鼠标 点 击 事件 时 ， 控 制 台 就 会 显示 对 应 像素 的 值 ( 这 里 假定 它 是 灰 度 图 像 ): 





























void onMouse( int event, int x, int y, int flags, void* param) { 
cv::Mat *im= reinterpret_cast<cv::Mat*> (param); 
switch (event) { // 调度 事件 
case CV::EVENT_LBUTTONDOWN: // 鼠标 左 键 按 下 事件 


// 显示 像素 值 (x,y) 


EGG Ce Vat Mes Ce TR YY Re TT) 7 .TS 
<< Satio cast<intS: 
im->at<uchar>(cv::Point (x,y))) << std::endl; 
break; 


} 
} 


这 里 用 cv: :Mat 对 象 的 at 方法 来 获取 (x，y) 的 像素 值 ， 第 2 章 会 详细 讨论 这 个 方法 。 鼠 
标 事件 的 回调 函数 可 能 收 到 的 事件 还 有 cv: :EVENT_MOoUSEMOVE 、cv: :EVENT_LBUTTONUP、 
cv: :EVENT_RBUTTONDOWN 和 cv: :EVENT_RBUTTONUP。 



































2. 在 图 像 上 绘图 


OpenCV 还 提供 了 几 个 用 于 在 图 像 上 绘制 形状 和 写 和 人 文本 的 孔 数 。 基 本 的 形状 绘制 函数 有 
circle、ellipse、line 和 rectangle。 这 是 一 个 使 用 circle 函数 的 例子 : 














cv::circle (image, // 目标 图 像 
cv::Point (155,110)， // 中 心 点 坐标 
65， // 半径 
0 ， // 颜色 (这 里 用 黑色 ) 
全 // 厚度 


在 OpenCV 的 方法 和 函数 中 ， 我 们 经 常用 cv: : Point 结构 来 表示 像素 的 坐标 。 这 里 假定 是 
在 灰 度 图 像 上 进行 绘制 的 ， 因 此 用 单个 整数 来 表示 颜色 。1.4 节 将 讲述 如 何 使 用 cv: :Scalar 结 
构 表 示 彩 色 图 像 颜 色 值 。 你 也 可 以 在 图 像 上 写 入 文本 ,方法 如 下 所 示 : 


Cv: :putText (image, // 目标 图 像 
This ds a dog, // 文本 
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cv::Point (40,200), // 文本 位 置 
cv: :FONT_ HERSHEY_PLAIN, // 字体 类 型 
2 // 字体 大 小 
255， // 字体 颜色 (这 里 用 白色 ) 
2 // 文本 厚度 


在 测试 图 像 上 调用 上 述 两 个 函数 后 ， 得 到 的 结果 如 下 图 所 示 。 








dog: 


This TS 





请 注意 ， 只 有 在 包含 顶层 模块 头 文件 opencv2/imgproc.hpp 的 前 提 下 ， 这 些 例子 才能 正常 运行 。 


1.3.5 ”参阅 


口 cv: :Mat 类 是 用 来 存放 图 像 (以 及 其 他 和 矩阵 数据 ) 的 数据 结构 。 在 所 有 OpenCV 类 和 函 
数 中 ， 这 个 数据 结构 占据 着 核心 地 位 ，1.4 节 将 对 它 做 详细 介绍 。 


1.4 深入 了 解 cv: :Mat 
1.3 节 提 到 了 cv: :Mat 数据 结构 。 正 如 前 面 所 说 ， 它 是 程序 库 中 的 关键 部 件 ， 用 来 操作 图 像 


和 和 矩阵 〈 从 计算 机 和 数学 的 角度 看 ， 图 像 其 实 就 是 矩阵 )。 在 开发 程序 时 ， 你 会 经 常用 到 这 个 数 
据 结构 ， 因 此 有 必要 熟悉 它 。 通 过 本 节 的 学 习 ， 你 将 了 解 到 它 采 用 了 很 巧妙 的 内 存 管理 机 制 。 














1.4.1 如 何 实现 
可 以 用 下 面 的 程序 来 测试 cv: :Mat 数据 结构 的 不 同属 性 : 





#include <iostream> 
#include <opencv2/core.hpp> 
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#include <opencv2/nhighgui .hpp> 


// 测试 函数 ， 它 创建 一 幅 图 像 

cv::Mat function() { 
// 创建 图 像 
cv::Mat ima(500,500,CV_8U,50); 
// 返回 图 像 


return ima; 





} 


int main() { 
// 创建 一 个 240 行 x320 列 的 新 图 像 
cv::Mat imagel (240,320,CV_8U,100); 
cv::imshow("Image"，jimagel); // 显示 图 像 
cv: :waitKey (0); // 等 待 按键 





// 重新 分 配 一 个 新 图 像 
imagel.create(200,200,CV_ 8U) ; 
imagel= 200; 








cv::imshow("Image"，jimagel); // 显示 图 像 
cv::waitKey(0); // 等 待 按键 


// 创建 一 个 红色 的 图 像 
// 通道 次 序 为 BGR 
cv::Mat image2(240,320,CV_8UC3,cv::Scalar(0,0,255)); 


// 或 者 
// cv::Mat image2 (cv::Size(320,240),CV_8UC3); 
// image2= cv::Scalar(0,0,255); 





cv::imshow("Image"，image2); // 显示 图 像 
cv: :waitKey (0); // 等 待 按键 


// 读 入 一 幅 图 像 


cv::Mat image3= cv::imread("puppy .bmp"); 


// 所 有 这 些 图 像 都 指向 同一 个 数据 块 
cv::Mat image4 (image3); 
imagel= image3; 


// 这 些 图 像 是 源 图 像 的 副本 图 像 
image3 .copyTo (image2); 
cv::Mat image5= image3.clone(); 











// 转换 图 像 进行 测试 


cv::flip(image3,image3,1); 





// 检查 哪些 图 像 在 处 理 过 程 中 受到 了 影响 
cv::imshow("Image 3", image3); 
cv::imshow("Image 1", imagel); 
cv::imshow("Image 2", image2); 
) 
) 


cv::imshow("Image 4", image4); 


( 
( 
( 
("Image 5", image5); 


Cv: :imshow 
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cv: :waitKey (0); // 等 待 按键 


// 从 函数 中 获取 一 个 灰 度 图 像 


cv::Mat gray= function(); 





cv::imshow("Image"，gray); // 显示 图 像 
cv: :waitKey (0); // 等 待 按键 


// 作为 灰 度 图 像 读 入 
imagel= cv::imread("puppy.bmp", CV_LOAD_ IMAGE GRAYSCALE); 
imagel .convertTo(image2,CV_32F,1/255.0,0.0); 





cv::imshow("Image"，image2); // 显示 图 像 
cv: :waitKey (0); // 等 待 按键 


return 0; 


} 
运行 这 个 程序 ， 你 将 得 到 下 面 这 些 图 像 。 





着 了 ma， 














1.4.2 ”实现 原理 


cv: :Mat 有 两 个 必 不 可 少 的 组 成 部 分 : 一 个 头 部 和 一 个 数据 块 。 头 部 包含 了 和 抢 阵 的 所 有 相关 
言 息 ( 大 小 、 通 道 数量 、 数 据 类 型 等 ), 1.3 节 介绍 了 如 何 访问 cv: :Mat 头 部 文件 的 某 些 属性 ( 例 
如 通过 使 用 cols 、rows 或 channels )。 数 据 块 包含 了 图 像 中 所 有 像素 的 值 。 头 部 有 一 个 指向 
数据 块 的 指针 ， 即 aata 属性 。cv: :Mat 有 一 个 很 重要 的 属性 ， 即 只 有 在 明确 要 求 时 ， 内 存 块 才 
会 被 复制 。 实 际 上 ， 大 多 数 操作 仅仅 复制 了 cv: :Mat 的 头 部 ， 因 此 多 个 对 象 会 指向 同一 个 数据 
块 。 这 种 内 存 管理 模式 可 以 提高 应 用 程序 的 运行 效率 ， 避 人 免 内 存 泄漏 , 但 是 我 们 必须 了 解 它 带 来 
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的 后 果 。 本 节 的 例子 会 对 这 点 进行 说 明 。 
新 创建 的 cv: :Mat 对 象 默 认 大 小 为 0, 但 也 可 以 指定 一 个 初始 大 小 ， 例 如 : 


// 创建 一 个 240 行 x320 列 的 新 图 像 

cv::Mat imagel (240,320,CV_8U,100); 

我 们 需要 指定 每 个 矩阵 元 素 的 类 型 ， 这 里 用 cv_8U 表示 每 个 像素 对 应 1 字 节 ( 灰 度 图 像 )， 
用 字母 u 表示 无 符号 ; 你 也 可 用 字母 s 表示 有 符号 。 对 于 彩色 图 像 ， 你 应 该 用 三 通道 类 型 
(CcV_8Uc3 )， 也 可 以 定义 16 位 和 32 位 的 整数 ( 有 符号 或 无 符号 )， 例 如 cv_16sc3。 我 们 其 至 
可 以 使 用 32 位 和 64 位 的 浮 点 数 (例如 Cv_32F )。 


图 像 (或 矩阵 ) 的 每 个 元 素 都 可 以 包含 多 个 值 ( 例如 彩色 图 像 中 的 三 个 通道 ), 因此 OpenCV 
引入 了 一 个 简单 的 数据 结构 cv: :scalar, 用 于 在 调用 函数 时 传递 像素 值 。 该 结构 通常 包含 一 个 
或 三 个 值 。 如 果 要 创建 一 个 彩色 图 像 并 用 红色 像素 初始 化 ， 可 用 如 下 代码 : 

// 创建 一 个 红色 图 像 


// 通道 次 序 是 BGR 
cv::Mat image2(240,320,CV_8UC3,cv::Scalar(0,0,255)); 


与 之 类 似 ,初始 化 灰 度 图 像 可 这 样 使 用 这 个 数据 结构 : cv: :Scalar (100)。 


图 像 的 尺寸 信息 通常 也 需要 传递 给 调用 函数 。 前 面 讲 过 ， 我 们 可 以 用 属性 cols 和 rows 来 
获得 cv: :Mat 实例 的 大 小 。cv: :Size 结构 包含 了 矩阵 高 度 和 宽度 ， 同 样 可 以 提供 图 像 的 尺寸 
信息 。 男 外 ， 可 以 用 size() 方 法 得 到 当前 矩阵 的 大 小 。 当 需要 指明 和 矩阵 的 大 小 时 ， 很 多 方法 都 
使 用 这 种 格式 。 


例如 ， 可 以 这 样 创建 一 幅 图 像 : 


// 创建 一 个 未 初始 化 的 彩色 图 像 

cv::Mat image2 (cv::Size(320,240),CV_8UC3); 

可 以 随时 用 create 方法 分 配 或 重新 分 配 图 像 的 数据 块 。 如 果 图 像 已 被 分 配 , 其 原来 的 内 容 
会 完 被 释放 。 出 于 对 性 能 的 考虑 ， 如 果 新 的 尺寸 和 类 型 与 原来 的 相同 ， 就 不 会 重新 分 配 内 存 : 

// 重新 分 配 一 个 新 图 像 

// ( 仅 在 大 小 或 类 型 不 同时 ) 

imagel.create(200,200,CV_8U); 

一 旦 没有 了 指向 cv: :Mat 对 象 的 引用 ， 分 配 的 内 存 就 会 被 自动 释放 。 这 一 点 非常 方便 ， 
为 它 避 免 了 C++ 动态 内 存 分 配 中 经 常 发 生 的 内 存 泄漏 问题 。 这 是 OpenCV (从 第 2 版 开始 引入 ) 
中 的 一 个 关键 机 制 ， 它 的 实现 方法 是 通过 cv: :Mat 实现 计数 引用 和 浅 复 制 。 因 此 ， 当 在 两 幅 图 
像 之 间 赋 值 时 ， 图 像 数 据 ( 即 像素 ) 并 不 会 被 复制 ， 此 时 两 幅 图 像 都 指向 同一 个 内 存 块 。 这 同样 
适用 于 图 像 间 的 值 传递 或 值 返回 。 由 于 维护 了 一 个 引用 计数 器 , 因此 只 有 当 图 像 的 所 有 引用 都 将 
释放 或 赋值 给 另 一 幅 图 像 时 ， 内 存 才 会 被 释放 : 
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// 所 有 图 像 都 指向 同一 个 数据 块 
cv::Mat image4 (image3); 
imagel= image3; 


对 上 面 图 像 中 的 任何 一 个 进行 转换 都 会 影响 到 其 他 图 像 。 如 果 要 对 图 像 内 容 做 一 个 深 复制 ， 
你 可 以 使 用 copyTo 方法 ,目标 图 像 将 会 调用 create 方法 。 另 一 个 生成 图 像 副 本 的 方法 是 clone， 
即 创建 一 个 完全 相同 的 新 图 像 : 


// 这 些 图 像 是 原始 图 像 的 新 副本 

image3 .copyTo (image2); 

cv::Mat image5= image3.clone(); 

在 本 节 的 例子 中 , 我 们 对 image3 做 了 修改 。 其 他 图 像 也 包含 了 这 幅 图 像 ， 有 的 图 像 共 用 了 
同一 个 图 像 数 据 ， 有 的 图 像 则 有 图 像 数据 的 独立 副本 。 查 看 显示 的 图 像 ， 找 出 哪些 图 像 因 修 改 
image3 而 产生 了 变化 。 

如 果 你 需要 把 一 幅 图 像 复制 到 另 一 幅 图 像 中 ， 且 两 者 的 数据 类 型 不 一 定 相 同 ， 那 就 要 使 用 
convertTo 方法 了 : 


// 转换 成 浮 点 型 图 像 [0,1] 
imagel .convertTo(image2,CV_32F,1/255.0,0.0); 


本 例 中 的 原始 图 像 被 复制 进 了 一 幅 浮 点 型 图 像 。 这 一 方法 包含 两 个 可 选 参数 : 缩放 比例 和 偏 
移 量 。 需 要 注意 的 是 ， 这 两 幅 图 像 的 通道 数量 必须 相同 。 
cv: :Mat 对 象 的 分 配 模型 还 能 让 程序 员 安 全 地 编写 返回 一 幅 图 像 的 函数 〈 或 类 方法 ): 










































































cv::Mat function() { 


// 创建 图 像 
cv::Mat ima(240,320,CV_8U,cv::Scalar(100)); 
// 返回 图 像 
return ima; 


} 
我 们 还 可 以 从 main 也 数 中 调用 这 个 函数 : 





// 得 到 一 个 灰 度 图 像 
cv::Mat gray= function(); 


运行 这 条 语句 后 ,就 可 以 用 变量 gray 操作 这 个 由 function 函数 创建 的 图 像 ， 而 不 需要 和 额 
外 分 配 内 存 了 。 正 如 前 面 解释 的 ， 从 cv: :Mat 实例 到 灰 度 图 像 实际 上 只 是 进行 了 一 次 浅 复 制 。 
当局 部 变量 ima 超出 作用 范围 后 ，ima 会 被 释放 。 但 是 从 相关 引用 计数 器 可 以 看 出 ， 另 一 个 实例 
( 即 变量 gray ) 引用 了 ima 内 部 的 图 像 数 据 ， 因 此 ima 的 内 存 块 不 会 被 释放 。 

请 注意 ， 在 使 用 类 的 时 候 要 特别 小 心 ， 不 要 返回 图 像 的 类 属性 。 下 面 的 实现 方法 很 容易 


[i 
人 心 、 


引发 错误 : 
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class Test { 
// 图 像 属 性 
cv::Mat ima; 
public: 
// 在 构造 函数 中 创建 一 幅 灰 度 图 像 
Test() : ima(240,320,CV_8U,cv::Scalar(100)) {} 








// 用 这 种 方法 回 送 一 个 类 属性 ， 这 是 一 种 不 好 的 做 法 
cv::Mat method() { return ima; } 


} 

如 果 某 个 函数 调用 了 这 个 类 的 method, 就 会 对 图 像 属性 进行 一 次 浅 复制 。 副本 一 旦 被 修改 ， 
class 属性 也 会 被 “偷偷 地 ”修改 ， 这 会 影响 这 个 类 的 后 续 行 为 (反之 亦 然 ) 这 违反 了 面向 对 
象 编程 中 重要 的 封装 性 原理 。 为 了 避免 这 种 类 型 的 错误 ， 你 需要 将 其 改 成 返回 属性 的 一 个 副本 。 


























1.4.3 扩展 阅读 
OpenCV 中 还 有 几 个 与 cv: :Mat 相关 的 类 ， 熟练 掌握 这 些 类 也 很 重要 。 
1. 输入 和 输出 数组 


在 OpenCy 的 文档 中 ， 很 多 方法 和 函数 都 使 用 cv: :InputArray 类 型 作为 输入 参数 。 
cv: :InputArray 类 型 是 一 个 简单 的 代理 类 ,用 来 概括 OpenCV 中 数组 的 概念 ， 避免 同一 个 方法 
或 函数 因为 使 用 了 不 同类 型 的 输入 参数 而 有 多 个 版 本 。 也 就 是 说 , 你 可 以 在 参数 中 使 用 cv: :Mat 
对 象 或 者 其 他 的 兼容 类 型 。 因 为 它 是 一 个 输入 数组 , 所 以 你 必须 确保 函数 不 会 修改 这 个 数据 结构 。 
有 趣 的 是 ， cv::InputArray 也 能 使 用 常见 的 std: :vector 类 来 构造 ; 也 就 是 说 ， 用 这 种 方式 
构造 的 对 象 可 以 作为 OpenCV 方法 和 函数 的 输入 参数 ( 但 千 万 不 要 在 自 定义 类 和 函数 中 使 用 这 个 
类 )。 其 他 兼容 的 类 型 有 cv: :Scalar 和 cv: :Vec, 后 者 将 在 下 一 章 介绍 。 此 外 还 有 一 个 代理 类 
cv: :OutputArray， 用 来 指定 某 些 方 法 或 了 兄 数 的 返回 数组 。 


2. 处 理 小 矩阵 


开发 应 用 程序 时 ， 你 可 能 会 遇 到 需要 处 理 小 矩阵 的 情况 ， 这 时 就 可 以 使 用 模板 类 cv: : Matx 
和 它 的 子 类 。 举 个 例子 , 下 面 的 代码 定义 了 一 个 3x3 的 双 精 度 型 浮 点 数 和 矩阵 和 一 个 3 元 素 的 向 量 ， 
然后 使 两 者 相 乘 : 


// // 3x3 双 精 度 型 矩阵 

Cv: Matx33Q matrix(30, 2.0; 1.0, 
2 
P07 2 0 30 0) 

// 3xl 矩阵 ( 即 向 量 ) 

cvV: :Matx31Q Vector (5.0，1.0，3.0) 

// 相 乘 


cV: :Matx31d result = matrix*vector; 


这 些 矩 阵 可 以 进行 常见 的 数学 运算 。 
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1.4.4 ”参阅 





口 1.5 节 将 解释 如 何 定义 图 像 内 的 感 兴趣 区 域 。 


1.5 定义 感 兴趣 区 域 


口 要 查看 完整 的 OpenCV 文档 ， 请 访问 http://docs.opencv.org/。 
口 第 2 章 将 介绍 如 何 高 效 地 访问 和 修改 cv: :Mat 表示 的 图 像 的 像素 值 。 


有 时 需要 让 一 个 处 理 函 数 只 在 图 像 的 某 个 部 分 起 作用 。OpenCV 内 藤 了 一 个 精致 又 简洁 的 机 
制 , 可 以 定义 图 像 的 子 区域 , 并 把 这 个 子 区域 当 作 普 通 图 像 进行 操作 。 本 节 将 介绍 如 何 定 义 图 像 























内 部 的 感 兴趣 区 域 。 
1.5.1 准备 工作 





























假设 我 们 要 把 一 个 小 图 像 复 制 到 一 个 大 图 像 上 。 例 如 要 把 下 面 的 标志 插入 到 测试 图 像 中 。 








汉 > 


为 了 实现 这 个 功能 ， 可 以 定义 一 个 感 兴 趣 区 域 (Region Of Interest，ROI )， 在 此 处 进行 复制 


操作 ， 这 个 ROI 的 位 置 将 决定 标志 的 插入 位 置 。 








1.5.2 ”如 何 实现 























在 于 ，ROI 实际 上 就 是 一 个 cv: :Mat 对 象 ， 它 与 它 的 父 





第 一 步 是 定义 ROI。 定 义 后 ， 就 可 以 把 ROI 当 作 一 个 普通 的 cv: :Mat 实例 进行 操作 。 关 键 








图 像 指 向 同一 个 数据 缓冲 区 ， 并 且 在 头 








部 指明 了 ROI 的 坐标 。 接 着 ,可 以 用 下 面 的 方法 插入 标志 : 


// 在 图 像 的 右 下 角 定义 一 个 ROI 
cv::Mat imageROI (image, 





cv::Rect (image.cols-logo.cols, // ROI 坐标 


image.rows-logo.rows, 


logo.cols,logo.rows)); // ROI 大 小 


// 播 入 标志 
logo.copyTo (imageROI) ; 

















这 里 的 image 是 目标 图 像 ，logo 是 标志 图 像 ( 相对 较 小 ) 运行 上 述 代码 后 ， 你 将 得 到 下 


面 的 图 像 。 
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1.5.3 ”实现 原理 


定义 ROI 的 一 种 方法 是 使 用 cv: :Rect 实例 。 正 如 其 名 ， 它 通过 指明 左上 角 的 位 置 ( 构造 
函数 的 前 两 个 参数 ) 和 和 矩 形 的 尺寸 ( 后 两 个 参数 表示 宽度 和 高 度 )， 描 述 了 一 个 矩形 区 域 。 在 这 
个 例子 中 ,我 们 利用 图 像 和 标志 的 尺寸 来 确定 标志 的 位 置 ， 即 图 像 的 右 下 角 。 很 明显 ， 整 个 ROI 
肯定 处 于 父 图 像 的 内 部 。 


ROI 还 可 以 用 行 和 列 的 值 域 来 描述 。 值 域 是 一 个 从 开始 索引 到 结束 索引 的 连续 序列 ( 不 含 开 
始 值 和 结束 值 )， 可 以 用 cv: :Range 结构 来 表示 这 个 概念 。 因 此 ， 一 个 ROI 可 以 用 两 个 值 域 来 
定义 。 本 例 中 的 ROI 也 可 以 定义 为 : 




















imageROI= image (cv::Range(image.rows-logo.rows,image.rows), 
cv::Range (image.cols-logo.cols,image.cols)); 


cv: :Mat 的 operator () 函数 返回 男 一 个 cv: :Mat 实例 ， 可 供 后 续 使 用 。 由 于 图 像 和 ROI 
共享 了 同一 块 图 像 数 据 ， 因 此 ROI 的 任何 转变 都 会 影响 原始 图 像 的 相关 区 域 。 在 定义 ROI 时 ， 
数据 并 没有 被 复制 ， 因 此 它 的 执行 时 间 是 固定 的 ， 不 受 ROI 尺寸 的 影响 。 


要 定义 由 图 像 中 的 一 些 行 组 成 的 ROI， 可 用 下 面 的 代码 : 








cv::Mat imageROI= image.rowRange (start,end); 
与 之 类 似 ， 要 定义 由 图 像 中 一 些 列 组 成 的 ROI， 可 用 下 面 的 代码 : 


cv::Mat imageROI= image.colRange (start,end); 


1.5.4 扩展 阅读 
OpenCy 的 方法 和 函数 包含 了 很 多 本 书 并 未 涉及 的 可 选 参数 。 第 一 次 使 用 某 个 函数 时 ,4 


Sy 
异 
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花 时 间 看 一 下 文档 ， 查 清 该 函数 支持 哪些 选项 。 一 个 十 分 常见 的 选项 很 可 能 被 用 来 定义 图 像 掩 码 。 | 
使 用 图 像 掩 码 





OpenCV 中 的 有 些 操作 可 以 用 来 定义 掩 码 。 函 数 或 方法 通常 对 图 像 中 所 有 的 像素 进行 操作 ， 
通过 定义 掩 码 可 以 限制 这 些 函 数 或 方法 的 作用 范围 。 掩 码 是 一 个 8 位 图 像 ， 如 果 掩 码 中 某 个 位 置 
的 值 不 为 0， 在 这 个 位 置 上 的 操作 就 会 起 作用 ; 如 果 掩 码 中 某 些 像素 位 置 的 值 为 0， 那么 对 图 像 
中 相应 位 置 的 操作 将 不 起 作用 。 例如， 在 调用 copyTo 方法 时 就 可 以 使 用 掩 码 ,我们 可 以 利用 掩 
码 只 复制 标志 中 白色 的 部 分 ， 如 下 所 示 : 


// 在 图 像 的 右 下 角 定义 一 个 ROI 

imageROI= image (cv::Rect (image.cols-logo.cols, 
image.rows-logo.rows, 
logo.cols,1ogo.rows)); 

// 把 标志 作为 掩 码 (必须 是 灰 度 图 像 ) 


cv::Mat mask (logo); 

















// 插入 标志 ， 只 复制 掩 码 不 为 0 的 位 置 
logo.copyTo (imageROI,mask); 


执行 这 段 代 码 后 你 将 得 到 下 面 这 幅 图 像 。 





看 ;Image 回 X 








因为 标志 的 背景 是 黑色 的 ( 因此 值 为 0), 所 以 很 容易 同时 作为 被 复制 图 像 和 掩 码 来 使 用 。 当 然 ， 
我 们 也 可 以 在 程序 中 自己 决定 如 何 定义 掩 码 。OpenCV 中 大 多 数 基于 像素 的 操作 都 可 以 使 用 掩 码 。 





1.5.5 ”参阅 


口 2.6 节 将 用 到 row 和 col 方法 ， 它们 是 rowRange 和 colRange 方法 的 特例 ， 即 开始 和 
结束 的 索引 是 相同 的 ， 以 定义 一 个 单行 或 单列 的 ROI。 


操作 像素 








本 章 包括 以 下 内 容 : 


口 访问 像素 值 ; 

口 用 指针 扫描 图 像 ; 

口 用 迭代 器 扫描 图 像 ; 

口 编写 高 效 的 图 像 扫描 循环 ; 
口 扫描 图 像 并 访问 相 邻 像素 ; 
口 实现 简单 的 图 像 运算 ; 

口 图 像 重 映射 。 











2.1 简介 


为 了 构建 计算 机 视觉 应 用 程序 ,我 们 需要 学 会 访问 图 像 内 容 ， 有 时 也 要 修改 或 创建 图 像 。 本 
童 将 讲解 如 何 操 作 图 像 的 元 素 ( 即 像素 )， 你 将 学 会 如 何 扫 描 一 幅 图 像 并 处 理 每 一 个 像素 ， 还 将 
学 会 如 何 进 行 高 效 处 理 ， 因 为 即使 是 中 等 大 小 的 图 像 ， 也 可 能 包含 数 十 万 个 像素 。 


图 像 本 质 上 就 是 一 个 由 数值 组 成 的 矩阵 。 正 因为 如 此 ，OpenCyV 使 用 了 cv: :Mat 结构 来 操 
作 图 像 , 这 在 第 1 章 已 经 讲 过 。 矩阵 中 的 每 个 元 素 表示 一 个 像素 。 对 灰 度 图 像 ( 黑白 图 像 ) 而 言 ， 
像素 是 8 位 无 符号 数 (数据 类 型 为 unsigned char )，0 表示 黑 色 ，255 表示 白色 。 


对 彩色 图 像 而 言 , 需要 用 三 原色 数据 来 重 现 不 同 的 可 见 色 。 这 是 因为 人 类 的 视觉 系统 是 三 原 
色 的 , 视网膜 上 有 三 种 类 型 的 视 锥 细胞 ,它们 将 颜色 信息 传递 给 大 脑 。 这 意味 着 彩色 图 像 的 每 个 
像素 都 要 对 应 三 个 数值 。 在 摄影 和 数字 成 像 技 术 中 , 常用 的 主 颜 色 通道 是 红色 、 绿 色 和 蓝 色 ， 
此 每 三 个 8 位 数值 组 成 矩阵 的 一 个 元 素 。 请 注意 ，8 位 通道 通常 是 够 用 的 ， 但 有 些 特殊 的 应 用 程 
序 需要 用 16 位 通道 (例如 医学 图 像 )。 


第 1 章 曾 提 到 , OpenCV 也 可 以 用 其 他 类 型 的 像素 值 来 创建 矩阵 ( 或 图 像 ), 例如 整 型 (cv_32U 
或 CV_32s ) 和 浮 点 数 (cV_32F )。 这 些 类 型 非常 有 用 ， 有 的 可 以 存储 图 像 处 理 过 程 中 的 中 间 结 
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果 。 大 部 分 操作 可 以 使 用 所 有 类 型 的 矩阵 , 也 有 一 些 操 作 必 须 使 用 特定 的 类 型 或 特定 的 通道 数量 。 
因此 ， 为 了 避免 常见 的 编程 错误 ， 必 须 充 分 理解 函数 的 先决 条 件 。 


本 章 将 一 直 使 用 下 面 的 彩色 图 像 作为 输入 对 象 ( 彩 图 请 男 见 彩色 图 片 PDF 或 本 书 网 站 )。 














2.2 访问 像素 值 


若 要 访问 矩阵 中 的 每 个 独立 元 素 ,只 需要 指定 它 的 行 号 和 列 号 即 可 。 返 回 的 对 应 元 素 可 以 是 
单个 数值 ， 也 可 以 是 多 通道 图 像 的 数值 向 量 。 


























2.2.1 准备 工作 


为 了 说 明 如 何 直接 访问 像素 值 ， 我 们 将 创建 一 个 简单 的 函数 ， 用 它 在 图 像 中 加 入 椒盐 噪声 
( salt-and-pepper noise )。 顾 名 思 义 ， 椒 盐 噪 声 是 一 个 专门 的 噪声 类 型 ， 它 随机 选择 一 些 像 素 ， 把 
它们 的 颜色 替换 成 白色 或 黑色 。 如 果 通 信 时 出 错 ， 部 分 像素 的 值 在 传输 时 丢失 ， 就 会 产生 这 种 品 
声 。 这 里 只 是 随机 选择 一 些 像素 ， 把 它们 设置 为 白色 。 



































2.2.2 如何 实现 


创建 一 个 接受 输入 图 像 的 函数 , 在 函数 中 对 图 像 进行 修改 。 第 二 个 参数 是 需要 改 成 白色 的 像 
素数 量 。 


void Salt(cv::Mat image, int n) { 














// C++11 的 随机 数 生 成 器 
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std::default_random engine generator; 

std: :uniform int distribution<int> 
randomRow(0, image.rows - 1); 

std: :uniform int_ distribution<int> 
randomCol (0, image.cols - 1); 


Tt js 
for (int k=0; k<n; k++) { 


// 随机 生成 图 形 位 置 

i= randomCol (generator); 

j= randomRow (generator); 

if (image.type() == CV_8UC1) { // 灰 度 图 像 





// 单 通道 8 位 图 像 
image.at<uchar>(j,i)= 
} else if (image.type() 





255 





CV_8UC3) { // 彩色 图 像 


// 3 通道 图 像 

image.at<cv: :Vec3b>(j,i)[0]= 255; 
image.at<cv: :Vec3b>(j,i)[1]= 255; 
image.at<cv: :Vec3b>(j,i)[2]= 255; 





} 

这 个 函数 使 用 一 个 简单 的 循环 ,执行 n 次 ,每 次 都 把 随机 选择 的 像素 设置 为 255。 这 里 用 随 
机 数 生成 器 生成 像素 的 列 i 和 行 j。 请 注意 , 这 里 使 用 了 type 方法 来 区 分 灰 度 图 像 和 彩色 图 像 。 
对 于 灰 度 图 像 ， 把 单个 的 8 位 数值 设置 为 255; 对 于 彩色 图 像 ， 需 要 把 三 个 主 颜 色 通 道 都 设置 为 
255 才能 得 到 一 个 白色 像素 。 


现在 你 可 以 调用 这 个 函数 ， 并 传人 已 经 打开 的 图 像 。 参 考 下 面 的 代码 : 


// 打开 图 像 

cv::Mat image= cv::imread("bolgdt.jpg",1); 
// 调用 函数 以 添加 噪声 

salt (image,3000); 














// 显示 结果 
cv: :namedWindow ("Image"); 
cv::imshow("Image", image); 


结果 图 像 如 下 所 示 。 
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2.2.3 ”实现 原理 


cv: :Mat 类 包含 多 种 方法 ， 可 用 来 访问 图 像 的 各 种 属性 : 利用 公共 成 员 变 量 cols 和 rows 
可 得 到 图 像 的 列 数 和 行 数 ; 利用 cv: :Mat 的 at (int y,int x) 方 法 可 以 访问 元 素 ， 其 中 x 是 
列 号 ，y 是 行 号 。 在 编译 时 必须 明确 方法 返回 值 的 类 型 ， 因 为 cv: :Mat 可 以 接受 任何 类 型 的 元 
素 ， 所 以 程序 员 需 要 指定 返回 值 的 预期 类 型 。 正 因为 如 此 ，at 方法 被 实现 成 一 个 模板 方法 。 在 调 
用 at 方法 时 ， 你 必须 指定 图 像 元 素 的 类 型 ， 例 如 : 




















image.at<uchar>(j,i)= 255; 


有 一 点 需要 特别 注意 , 程序 员 必 须 保 证 指定 的 类 型 与 矩阵 内 的 类 型 是 一 致 的 。at 方法 不 会 进 
行 任何 类 型 转换 。 


彩色 图 像 的 每 个 像素 对 应 三 个 部 分 : 红色 通道 、 绿色 通 道 和 蓝 色 通道 ,因此 包含 彩色 图 像 的 
cv: :Mat 类 会 返回 一 个 向 量 , 向 量 中 包含 三 个 8 位 的 数值 。 OpenCV 为 这 样 的 短 向 量 定义 了 一 种 
类 型 ， 即 cv: :Vec3pb。 这 个 癌 量 包含 三 个 无 符号 字符 ( unsigned character ) 类 型 的 数据 。 因 此 ， 
访问 彩色 像素 中 元 素 的 方法 如 下 所 示 : 












































image.at<cv: :Vec3b>(j,i) [channel]= value; 


channel 索引 用 来 指明 三 个 颜色 通道 中 的 一 个 。OpenCy 存储 通道 数据 的 次 序 是 蓝 色 、 绿 色 
和 红色 ( 因此 蓝 色 是 通道 0)。 你 也 可 以 直接 使 用 短 向 量 , 方法 如 下 所 示 : 


image.at<xcv: :Vec3bs(JjJ,;, i) 3 cv:i:Vec3pb(255, 255; 255); 

















还 有 类 似 的 向 量 类 型 用 来 表示 二 元 素 向 量 和 四 元 素 向 量 (cv::Vec2b 和 cv: :vec4b )。 此 
外 还 有 针对 其 他 元 素 类 型 的 向 量 。 例 如 ,表示 二 元 素 浮 点 数 类 型 的 向 量 就 是 把 类 型 名 称 的 最 后 一 
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个 字母 换 成 £， 即 cv: :Vec2f。 对 于 短 整 型 , 最 后 的 字母 换 成 s; 对 于 整 型 , 最 后 的 字母 换 成 i; 
对 于 双 精 度 浮 点 数 向 量 ， 最 后 的 字母 换 成 gs。 所 有 这 些 类 型 都 用 cv : :Vec<T,N> 模 板 类 定义 ,其 
中 了 是 类 型 ，N 是 向 量 元 素 的 数量 。 


最 后 一 个 提示 , 你 也 许 会 觉得 奇怪 , 为 什么 这 些 修改 图 像 的 函数 在 使 用 图 像 作为 参数 时 ， 都 
采用 了 值 传递 的 方式 ?之 所 以 这 样 做 , 是 因为 它们 在 复制 图 像 时 仍 共享 了 同一 块 图 像 数 据 。 因 此 
在 需要 修改 图 像 内 容 时 ,图像 参 数 没 必要 采用 引用 传递 的 方式 。 顺 便 说 一 下 ， 编 译 咒 做 代码 优化 
时 ， 用 值 传递 参数 的 方法 通常 比较 容易 实现 。 















































2.2.4 扩展 阅读 
cv: :Mat 类 的 定义 采用 了 C++ 模板 ， 因 此 它 的 通用 性 很 强 。 
CV: :Mat_ 模 板 类 


因为 每 次 调用 都 必须 在 模板 参数 中 指明 返回 类 型 ， 所 以 cv: :Mat 类 的 at 方法 有 时 会 显得 元 
长 。 如 果 已 经 知道 矩阵 的 类 型 ， 就 可 以 使 用 cv: :Mat_ 类 ( cv: :Mat 类 的 模板 子 类 )。cv: :Mat_ 类 
定义 了 一 些 新 的 方法 ,但 没有 定义 新 的 数据 属性 , 因此 这 两 个 类 的 指针 或 引用 可 以 直接 互相 转换 。 
新 方法 中 有 一 个 operator()， 可 用 来 直接 访问 矩阵 的 元 素 。 因 此 可 以 这 样 写 代 码 ( 其 中 image 
是 一 个 对 应 uchar 矩阵 的 cv: :Mat 变量 ): 


// 用 Mat 模板 操作 图 像 
cv::Mat_<uchar> img (image); 
img (50,100)= 0; // 访问 第 50 行 、 第 100 列 处 那个 值 















































在 创建 cv: :Mat_ 变量 时 ， 我 们 就 定义 了 它 的 元 素 类 型 ， 因 此 在 编译 时 就 已 经 知道 了 
operator () 的 返回 类 型 。 使 用 操作 符 operator () 和 使 用 at 方法 产生 的 结果 是 完全 相同 的 ， 
只 是 前 者 的 代码 更 简短 。 





2.2.5 ”参阅 


口 2.3.4 节 将 解释 如 何 创建 一 个 吾 有 输入 和 输出 参数 的 函数 。 
口 2.5 节 将 讨论 at 方法 的 效率 。 





2.3 用 指针 扫描 图 像 


在 大 多 数 图 像 处 理 任务 中 , 执行 计算 时 你 都 需要 对 图 像 的 所 有 像素 进行 扫描 。 需 要 访问 的 像 
素数 量 非 常 庞大 , 因此 你 必须 采用 高 效 的 方式 来 执行 这 个 任务 。 本 节 和 下 一 节 将 展示 几 种 实现 高 
效 扫描 循环 的 方法 ， 本 节 将 使 用 指针 运算 。 
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2.3.1 准备 工作 
为 了 说 明 图 像 扫 描 的 过 程 ， 我 们 来 做 一 个 简单 的 任务 : 减少 图 像 中 颜色 的 数量 。 


彩色 图 像 由 三 通道 像素 组 成 ， 每 个 通道 表示 红 、 绿 、 蓝 三 原色 中 一 种 颜色 的 亮度 值 ， 每 个 数 | 
值 都 是 8 位 无 符号 字符 类 型 ， 因 此 颜色 总 数 为 256x256x256， 即 超过 1600 万 种 颜色 。 因 此 , 为 
了 降低 分 析 的 复杂 性 ， 有 时 需要 减少 图 像 中 颜色 的 数量 。 一 种 实现 方法 是 把 RGB 空间 细 分 到 大 
小 相等 的 方块 中 。 例 如， 如 果 把 每 种 颜色 数量 减少 到 1/8， 那 么 颜色 总 数 就 变 为 32x32x32。 将 旧 
图 像 中 的 每 个 颜色 值 划 分 到 一 个 方块 ,该 方块 的 中 间 值 就 是 新 的 颜色 值 ;新 图 像 使 用 新 的 颜色 值 ， 
颜色 数 就 减少 了 。 


因此 ， 基 本 的 减 色 算 法 很 简单 。 假 设 N 是 减 色 因 子 , 将 图 像 中 每 个 像素 的 值 除 以 N (这 里 假 
定 使 用 整数 除法 ， 不 保留 余数 )。 然 后 将 结果 乘 以 N， 得 到 的 倍数 ， 并 且 刚 好 不 超过 原始 像素 
值 。 加 上 N / 2， 就 得 到 相 邻 的 N 倍数 之 间 的 中 间 值 。 对 所 有 8 位 通道 值 重复 这 个 过 程 ， 就 会 得 到 
(256 /NN) x (256 / N) x (256 /名 种 可 能 的 颜色 值 。 







































































2.3.2 ”如 何 实现 
减 色 函数 的 签名 如 下 : 


void colorReduce(cv::Mat image, int div=64); 


用 户 提 供 一 幅 图 像 和 每 个 颜色 通道 的 减 色 因子 。 这 里 的 处 理 过 程 是 就 地 进行 的 ， 也 就 是 说 ， 
函数 直接 修改 了 输入 图 像 的 像素 值 。2.3.4 节 将 介绍 一 个 更 为 通用 的 签名 ， 用 于 输入 和 输出 参数 。 


处 理 过 程 很 简单 ， 只 要 创建 一 个 二 重 循环 遍历 所 有 像素 值 ， 代 码 如 下 所 示 : 


void colorReduce (cv: :Mat image, int div=64) { 









































int nl= image.rows; // 行 数 
// 每 行 的 元 素数 量 
int nc= image.cols * image.channels (); 
for (int j=0; j<nl; j++) { 
// 取得 行 j 的 地 址 


uchar* data= image.ptr<uchar>(j); 

for (int i=0; i<nc; i++) { 
处 理 委 个 像 沼 ?一 
data[i]= datalil]/div*div + div/2; 
// 像素 处 理 结束 ---------------- 

六 和 行 结 


} 
} 
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可 以 用 下 面 的 代码 片段 测试 这 个 函数 : 


// 读 取 图 像 

image= cv::imread("boldt.jpg"); 
// 处 理 图 像 

colorReduce (image, 64); 

// 显示 图 像 

cv: :namedWindow ("Image"); 
cv::imshow("Image", image); 


执行 后 得 到 下 面 的 图 像 。 








国 | |mage i 图 义 








2.3.3 ”实现 原理 


在 彩色 图 像 中 ， 图 像 数据 缓 冲 区 的 前 3 字 节 表示 左上 角 像 素 的 三 个 通道 的 值 ， 接 下 来 的 3 
字 节 表示 第 1 行 的 第 2 个 像素 ， 以 此 类 推 ( 注意 OpenCV 默认 的 通道 次 序 为 BGR )。 一 个 宽 w 
高 互 的 图 像 所 需 的 内 存 块 大 小 为 wxHx3 uchars。 不 过 出 于 性 能 上 的 考虑 ,我 们 会 用 几 个 额外 
的 像素 来 填补 行 的 长 度 。 这 是 因为 ， 如 果 行 数 是 某 个 数字 例如 8 ) 的 整数 倍 ， 图 像 处 理 的 性 
能 可 能 会 提高 ， 因 此 最 好 根据 内 存 配置 情况 将 数据 对 齐 。 当 然 ， 这 些 额外 的 像素 既 不 会 显示 也 
不 被 保存 ， 它 们 的 额外 数据 会 被 忽略 。OpenCyV 把 经 过 填充 的 行 的 长 度 指 定 为 有 效 宽度 。 如 果 
图 像 没有 用 额外 的 像素 填充 ， 那 么 有 效 宽度 就 等 于 实际 的 图 像 宽度 。 我 们 已 经 学 过 , 用 cols 
和 rows 属性 可 得 到 图 像 的 宽度 和 高 度 。 与 之 类 似 ， 用 step 数据 属性 可 得 到 单位 是 字 节 的 有 
效 宽度 。 即使 图 像 的 类 型 不 是 uchar, step 仍然 能 提供 行 的 字 节 数 。 我 们 可 以 通过 elemsize 
方法 (例如 一 个 三 通道 短 整 型 的 矩阵 cv_16sc3 ，elemsize 会 返回 6 ) 获得 像素 的 大 小 ， 通 
过 nchannels 方法 ( 灰 度 图 像 为 1， 彩 色 图 像 为 3 ) 获得 图 像 中 通道 的 数量 ， 最 后 用 total 
方法 返回 矩阵 中 的 像素 ( 即 矩 阵 的 条 目 ) 总 数 。 
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用 下 面 的 代码 可 获得 每 一 行 中 像素 值 的 个 数 : 
int nc= image.cols * image.channels(); 


为 了 简化 指针 运算 的 计算 过 程 ，cv: :Mat 类 提供 了 一 个 方法 ， 可 以 直接 访问 图 像 中 一 行 的 
起 始 地 址 。 这 就 是 ptr 方法 ， 它 是 一 个 模板 方法 ， 返 回 第 j 行 的 地 址 : 
































uchar* data= image.ptr<uchar>(j); 


请 注意 , 我 们 也 可 以 在 处 理 语句 中 采用 另 一 种 等 价 的 做 法 ， 即 利用 指针 运算 从 一 列 移 到 下 一 
列 。 因 此 可 以 使 用 下 面 的 代码 : 


*data++= *data/div*div + div2; 


2.3.4 扩展 阅读 


前 面 介 绍 的 减 色 函数 只 是 完成 任务 的 一 种 方法 , 也 可 以 采用 其 他 的 减 色 算法 。 要 想 使 函数 更 
加 通用 ， 就 要 允许 指定 不 同 的 输入 和 输出 图 像 。 另 外 ,考虑 到 图 像 数据 的 连续 性 ， 扫 描 的 速度 还 
可 以 提高 。 最 后 ， 也 可 以 使 用 低层 次 指针 运算 来 扫描 图 像 缓 冲 区 。 下 面 分 别 讨论 这 几 点 。 

1. 其 他 减 色 算法 

在 前 面 的 例子 中 , 减 色 功 能 的 实现 是 利用 了 整数 除法 的 特性 ,， 即 取 不 超过 又 最 接近 结果 的 整 
数 ， 代 码 如 下 所 示 : 






































dqata[il]= (data[li]/div)*div + div/2; 
减 色 计 算 也 可 以 使 用 取 模 运算 符 ， 它 可 以 直接 得 到 div 的 倍数 ， 代 码 如 下 所 示 : 
datal[li]= qata[il - aqata[ilgqiv + div/2; 








另外 还 可 以 使 用 位 运算 符 。 如 果 把 减 色 因子 限定 为 2 的 指数 , 即 div=pow (2,n)，, 那么 把 
像素 值 的 前 n 位 掩 码 后 就 能 得 到 最 接近 的 aiv 的 倍数 。 可 以 用 简单 的 位 移 操作 获得 掩 码 , 代码 
如 下 所 示 : 


// 用 来 稚 取 像素 值 的 掩 码 
uchar mask= OxFF<<n; // 如 div=16, 则 mask= 0xF0 

















可 用 下 面 的 代码 实现 减 色 运 算 : 
*data &= mask; // 掩 码 
*data++ += div>>1; // 加 上 div/2 
// 这 里 的 + 也 可 以 改 用 “ 按 位 或 ”运算 符 


一 般 来 说 ， 使 用 位 运算 的 代码 运行 效率 很 高 ， 因 此 在 效率 为 重 时 ， 位 运算 是 不 二 之 选 。 
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2. 使 用 输入 和 输出 参数 


前 面 的 减 色 函数 直接 在 输入 图 像 中 进行 了 转换 ,这 称 为 就 地 转换 。 这 种 做 法 不 需要 额外 的 图 
像 来 输出 结果 ， 可 以 减少 内 存 的 使 用 。 但 是 有 的 程序 不 希望 对 原始 图 像 进行 修改 , 这 时 就 必须 在 
调用 函数 前 备份 图 像 。 请 注意 ， 对 图 像 进行 深 复制 最 简单 的 方法 是 使 用 clone () 方 法 ， 如 下 面 
的 代码 所 示 : 


// 读 入 图 像 

image= cv::imread("boldt.jpg"); 

// 复制 图 像 

cv::Mat imageClone= image.clone(); 

// 处 理 图 像 副 本 

// 原始 图 像 保持 不 变 

colorReduce (imageClone); 

// 显示 结果 图 像 

cv: :namedWindow ("Image Result"); 
cv::imshow("Image Result",imageClone); 


如 果 在 定义 函数 时 ,能 允许 用 户 选择 是 否 要 采用 就 地 处 理 ， 就 可 以 避免 这 些 额外 的 过 程 。 方 
法 的 签名 为 : 
void colorReduce (const cv::Mat &image，// 输入 图 像 
cv::Mat &result， // 输出 图 像 
int div=64); 
注意 , 输入 图 像 是 一 个 引用 的 const ,表示 这 幅 图 像 不 会 在 函数 中 修改 。 输 出 图 像 是 一 个 引 
用 参数 ,在 函数 中 会 被 修改 ,并 且 返 回 给 调用 这 个 函数 的 代码 。 如 果 需 要 就 地 处 理 ， 可 以 在 输入 
和 输出 参数 中 用 同一 个 image 变量 : 






























































colorReduce (image, image); 
否则 就 可 以 提供 一 个 cv: :Mat 实例 : 


cv::Mat result; 
ColorReduce (image,result); 


这 里 的 关键 是 先 检 查 输出 图 像 , 验证 它 是 否 分 配 了 一 定 大 小 的 数据 缓冲 区 , 以 及 像素 类 型 与 
输入 图 像 是 否 相 符 一 一 所 幸 cv: :Mat 的 create 方法 中 已 经 包含 了 这 个 检查 过 程 。 当 你 用 新 的 
大 小 和 像素 类 型 重新 分 配 和 矩阵 时 , 就 要 调用 create 方法 。 如 果 矩 阵 已 有 的 大 小 和 类 型 刚好 与 指 
定 的 大 小 和 类 型 相同 ， 这 个 方法 就 不 会 执行 任何 操作 ， 也 不 会 修改 实例 ， 而 只 是 直接 返回 。 


因此 ， 气 数 中 首先 要 调用 create 方法 , 构建 一 个 大 小 和 类 型 都 与 输入 图 像 相同 的 矩阵 ( 如 
果 必 要 ): 
result.create(image.rows,image.cols,image.type()); 


分 配 的 内 存 块 的 大 小 表示 为 total () *elemSize()。 扫描 过 程 中 使 用 两 个 指针 : 
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for (int j=0; j<nl; j++) { 
// 获得 第 j 行 的 输入 和 输出 的 地 址 


const uchar* data_in= image.ptr<uchar>(j); 
uchar* data_out= result.ptr<uchar>(j); 


for (int i=0; i<nc*nchannels; i++) { 
// 处 理 每 个 像素 --------------------- 
data_out[i]= data_in[i]/div*div + div/2; 
// 像素 处 理 结束 ---------------- 


) // 一 行 结 

} 

如 果 输 入 和 输出 参数 用 了 同一 幅 图 像 , 这 个 函数 就 与 本 节 前 面 的 版 本 完全 等 效 。 如果 输出 用 
了 另 一 幅 图 像 ， 不 管 在 调用 函数 前 是 否 已 经 分 配 了 这 幅 图 像 ， 函 数 都 会 正常 运行 。 


最 后 需要 注意 的 是 ， 这 个 函数 的 参数 类 型 也 可 以 用 cv: :InputArray 和 cv: :OutputArray。 
这 样 得 到 的 结果 是 一 样 的 ， 但 在 参数 类 型 的 选择 上 提供 了 更 大 的 灵活 性 ， 详 见 第 1 章 。 


3. 对 连续 图 像 的 高 效 扫描 


前 面 解 释 过 , 为 了 提高 性 能 ， 可 以 在 图 像 的 每 行 末尾 用 额外 的 像素 进行 填充 。 有 趣 的 是 , 在 
去 掉 填 充 后 ,图 像 仍 可 被 看 作 一 个 包含 wxH 像素 的 长 一 维 数组 。 用 cv: :Mat 的 isContinuous 
方法 可 轻松 判断 图 像 有 没有 被 填充 。 如 果 图 像 中 没有 填充 像素 ， 它 就 返回 true。 我 们 还 能 这 样 
测试 矩阵 的 连续 性 : 

// 检查 行 的 长 度 ( 字 节 数 ) 与 “ 列 的 个 数 x 单 个 像素 ”的 字 节 数 是 否 相 等 

image.step == image.cols*image.elemSize(); 

为 确保 完整 性 , 测试 时 还 需要 检查 和 矩阵 是 否 只 有 一 行 ; 如 果 是 ,这 个 矩阵 就 是 连续 的 。 但 是 
不 管 哪 种 情况 ， 都 可 以 用 iscontinuous 方法 检查 矩阵 的 连续 性 。 在 一 些 特殊 的 处 理 算法 中 ， 
你 可 以 充分 利用 图 像 的 连续 性 ， 在 单个 (更 长 ) 循环 中 处 理 图 像 。 处 理 函 数 就 可 以 改 为 : 


void colorReduce (cv: :Mat image, int div=64) { 
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int nl= image.rows; // 行 数 
// 每 行 的 元 素 总 数 
int nc= image.cols * image.channels (); 


if (image.isContinuous()) { 
// 没有 填充 的 像素 
ics HOw] 
nl= 1; // 它 现在 成 了 一 个 一 维 数组 


int n= Staic_cast<int>( 
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log(static cast<double>(div))/log(2.0) + 0.5); 


// 用 来 礁 取 像素 值 的 掩 码 
uchar mask= 0xFF<<n; // 如 果 dqiv=16， 那 么 mask= 0xF0 
uchar div2 = div >> 1; // div2 = div/2 


// 对 于 连续 图 像 ， 这 个 循环 只 执行 一 次 
for (int j=0; j<nl; j++) { 


uchar* data= image.ptr<uchar>(j); 
for (int i=0; i<nc; i++) { 


*data &= mask; 
*data++ += div2; 
} // 一 行 结 
} 

















如 果 连 续 性 测试 结果 表明 图 像 中 没有 填充 像素 ， 我 们 就 把 宽度 设 为 1， 高度 设 为 wxH， 从 而 








去 除外 层 的 循环 。 注 意 ， 这 里 还 需要 用 reshape 方法 。 本 例 中 需要 这 样 写 : 


if (image.isContinuous () ) 
{ 
// 没有 填充 像素 
image.reshape(1， // 新 的 通道 数 
1); // 新 的 行 数 
} 


int nl= image.rows; // 行 数 
int nc= image.cols * image.channels(); 





如 果 是 用 reshape 方法 修改 矩阵 的 维 数 ， 就 不 需要 复制 内 存 或 重新 分 配 内 存 了 。 第 一 个 参 





数 是 新 的 通道 数 ， 第 二 个 参数 是 新 的 行 数 。 列 数 会 进行 相应 的 修改 。 
在 这 些 实现 方式 中 ， 内 层 循环 按 顺序 处 理 图 像 中 的 所 有 像素 。 








4. 低层 次 指针 算法 
在 cv: :Mat 类 中 ， 图 像 数 据 是 存放 在 无 符号 字符 型 的 内 存 块 中 的 。 其 中 aata 











属性 表示 内 


存 块 第 一 个 元 素 的 地 址 ， 它 会 返回 一 个 无 符号 字符 型 的 指针 。 如 果 要 从 图 像 的 起 点 开始 循环 , 你 


可 以 用 如 下 代码 : 
uchar *data= image.data; 


利用 有 效 宽 度 来 移动 行 指针 ， 可 以 从 一 行 移 到 下 一 行 ， 代 码 如 下 所 示 : 





data+= image.step; // 下 一 行 

















用 step 属性 可 得 到 一 行 的 总 字 节 数 ( 包括 填充 像素 ) 通常 可 以 用 下 面 的 方法 得 到 第 j 行 、 











第 i 列 的 像素 的 地 址 : 
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// (j,i) 像 素 的 地 址 ， 即 &image.at (j,i) 
data= image.data+j*image.step+i*image.elemSize(); 


然而 ， 尽 管 这 种 处 理 方法 在 上 述 例子 中 能 起 作用 ,但 是 并 不 推荐 使 用 。 











2.3.5 ”参阅 
口 2.5 节 将 讨论 各 种 扫描 方法 的 效率 。 


口 1.4 节 详细 介绍 了 cv: :Mat 类 的 属性 和 方法 ， 也 介绍 了 cv: :InputaArray 和 cv: :Output 
Array 等 相关 的 类 。 











2.4 用 和 迭代 器 扫描 图 像 


在 面向 对 象 编程 时 ,我 们 通常 用 迭代 器 对 数据 集合 进行 循环 遍历 。 和 迭代 器 是 一 种 类 ,专门 用 
于 遍历 集合 的 每 个 元 素 ， 并 能 隐藏 遍历 过 程 的 具体 细节 。 信息 隐藏 原则 的 应 用 ,使 扫描 集合 的 过 
程 变 得 更 加 容易 和 安全 。 并 且 不 管 被 用 于 哪 种 类 型 的 集合 ， 它 都 能 提供 类 似 的 形式 。 标 准 模板 库 
( Standard Template Library，STL ) 对 每 个 集合 类 都 定义 了 对 应 的 迭代 器 类 ，OpenCV 也 提供 了 
cv: :Mat 的 迭代 器 类， 并 且 与 C++ STL 中 的 标准 迭代 器 兼容 。 
































2.4.1 准备 工作 
本 节 仍 使 用 2.3 节 的 减 色 程序 作为 例子 。 





2.4.2 如何 实 现 

要 得 到 CV: :Mat 实例 的 迭代 姨 ， 首先 要 创建 一 个 Gs :MatIterator_ 对 象 。 跟 cv: :Mat _ 
类 似 , 这 个 下 划 线 表示 它 是 一 个 模板 子 类 。 因 为 图 像 迭 代 器 是 用 来 访问 图 像 元 素 的 ， 所 以 必须 在 
编译 时 就 明确 返回 值 的 类 型 。 可 以 这 样 定义 彩色 图 像 的 迭代 器 : 



































cv::MatIterator_<cv::Vec3b> it; 


也 可 以 使 用 在 Mat_ 模 板 类 内 部 定义 的 iterator 类 型 . 





CVv::Mat_<cv::Vec3b>::iterator it; 


然后 就 可 以 使 用 常规 的 迭代 器 方法 begin 和 send 对 像素 进行 循环 遍历 了 。 不 同 之 处 在 于 它 
们 仍然 是 模板 方法 。 现 在 , 减 色 函数 可 以 这 样 编写 : 





void colorReduce (cv: :Mat image, int div=64) { 
// div 必须 是 2 的 震 
int n= staic_ cast<int>( 

log(static cast<double>(div))/log(2.0) + 0.5); 
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// 用 来 截取 像素 值 的 捧 码 
uchar mask= 0xFF<<n; // 如 果 div=16, mask=0xF0 
uchar div2 = div >> 1; // div2 = div/2 





// 选 代 器 
Cv::Mat_<cv::Vec3b>::iterator it= image.begin<cv::Vec3b>(); 
Cv: :Mat_<cv::Vec3b>::iterator itend= image.end<cv::Vec3b>(); 
// 扫描 全 部 像素 
for ( ; it!= itend; ++it) { 

(*it) [0]&= mask; 

(*it) [0]+= div2; 

(*it) [1]&= mask; 

(*it) [1]+= div2; 

(*it) [2]&= mask; 

(xf [2] = dLV2; 


} 


请 注意 ， 这 里 处 理 的 是 一 个 彩色 图 像 ， 因 此 迭代 需 返 回 cv: :Vec3b 实例 。 你 可 以 用 取 值 运 
算 符 [] 访问 每 个 颜色 通道 的 元 素 。 这 里 也 可 以 使 用 cv: :Vec3b 的 重 载运 算 符 ， 可 简化 为 : 


*it= *it/div*div+offset; 


短 向 量 的 元 素 运 算 都 可 以 使 用 这 种 方法 。 



































2.4.3 ”实现 原理 
不 管 扫描 的 是 哪 种 类 型 的 集合 ， 使 用 迭代 器 时 总 是 遵循 同样 的 模式 。 
首先 你 要 使 用 合适 的 专用 类 创建 迭代 器 对 象 ， 在 本 例 中 是 cv: :Mat_<cv: :Vec3b>:: 


iterator (或 cv::MatIterator_<cv::Vec3b> )。 


然后 可 以 用 begin 方法 ,在 开始 位 置 (本 例 中 为 图 像 的 左上 角 ) 初始 化 迭代 器 。 对 于 彩色 
图 像 的 cv: :Mat 实例 ， 可 以 使 用 ijmage .begin<cv: :Vec3b>()。 还 可 以 在 迭代 器 上 使 用 数学 
计算 ， 例 如 若 要 从 图 像 的 第 二 行 开始 ， 可 以 用 image.begin<cv: :Vec3b>()+image.cols 初始 
化 cv: :Mat 迭代 器 。 获 取 集合 结束 位 置 的 方法 也 类 似 ， 只 是 改 用 enad 方法 。 但 是 , 用 eng 方法 得 
到 的 迭代 器 已 经 超出 了 集合 范围 , 因此 必须 在 结束 位 置 停 止 迭 代 过 程 。 结束 的 迭代 器 也 能 使 用 数学 
计算 ,例如 你 想 在 最 后 一 行 前 就 结束 迭代 ， 可 使 用 image .end<cv: :Vec3b>() -image.cols。 


初始 化 迭代 顺 后 ， 建 立 一 个 循环 遍历 所 有 元 素 ， 到 结束 迭代 器 为 止 。 典 型 的 while 循环 就 
像 这 样 : 


while (it!= itend) { 






































// 处 理 每 个 像素 --------------------- 
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// 像素 处 理 结束 --------------------- 


++it; 


} 





你 可 以 用 运算 符 ++ 移 动 到 下 一 个 元 素 ， 也 可 以 指定 更 大 的 步 幅 。 例 如 用 it+=10， 对 每 10 


个 像素 处 理 一 次 。 


最 后 ， 在 循环 内 部 使 用 取 值 运算 符 * 来 访问 当前 元 素 ， 你 可 以 用 它 来 读 (例如 element= 
*it; ) 或 写 (例如 *it= element; )。 你 也 可 以 创建 常量 迭代 器 ， 用 作对 常量 cv: :Mat 的 引用 ， 
或 者 表示 当前 循环 不 修改 cv: :Mat 实例 。 常 量 迭 代 器 的 定义 如 下 所 示 : 


cv::MatConstIiterator_<cv::Vec3b> it; 


或 者 : 


Cv::Mat_<cv::Vec3b>::const_iterator it; 


2.4.4 扩展 阅读 


本 节 用 begin 和 end 模板 方法 获得 了 迭代 器 的 开始 位 置 和 结束 位 置 。2.2 节 讲 过 , 我 们 还 可 
以 用 对 cv: :Mat_ 实 例 的 引用 来 获取 迭代 器 的 开始 位 置 和 结束 位 置 ， 这 样 就 不 需要 在 begin 和 
end 方法 中 指定 迭代 器 的 类 型 了 ， 因 为 在 创建 cv: :Mat_ 引 用 时 迭代 器 类 型 已 被 指定 。 
cvV::Mat_<cv::Vec3p> cimage (image); 


Cv::Mat_<cv::Vec3b>::iterator it= cimage.begin(); 
Cv::Mat_<cv::Vec3b>::iterator itend= cimage.end(); 


2.4.5 ”参阅 











口 2.5 节 将 讨论 迭代 器 在 扫描 图 像 时 的 效率 。 
口 如 果 你 不 熟悉 面向 对 象 编程 中 的 迭代 器 ， 不 知道 在 ANSI C++ 中 如 何 实现 迭代 器 ， 可 阅 




















读 STL 迭代 器 的 教程 。 在 网 上 搜索 关键 字 “STL 迭代 器 ”， 你 会 发 现 很 多 相关 内 容 。 


2.5 ”编写 高 效 的 图 像 扫描 循环 
本 章 前 面 几 节 介绍 了 几 种 为 处 理 像素 而 扫描 图 像 的 方法 ， 本 节 就 来 比较 一 下 这 些 方法 的 


效率 。 
在 编写 图 像 处 理 























丽 数 时 ， 你 需要 充分 考虑 运行 效率 。 在 设计 函数 时 ,你 要 经 常 检查 代码 的 运 





行 效率 ， 找 出 处 理 过 程 中 可 能 使 程序 变 慢 的 瓶颈 。 
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但 是 有 一 点 非常 重要 ， 除 非 确实 必要 ,不 要 以 牺牲 代码 的 清晰 度 来 优化 性 能 。 简 洁 的 代码 总 
是 更 容易 调试 和 维护 。 只 有 对 程序 效率 至 关 重 要 的 代码 段 ， 才 需要 进行 重度 优化 。 

















2.5.1 ”如何 实现 


OpenCV 有 一 个 非常 实用 的 函数 可 以 用 来 测算 函数 或 代码 段 的 运行 时 间 , 它 就 是 cv: :get 
TickCount () ， 该 函数 会 返回 从 最 近 一 次 计算 机 开机 到 当前 的 时 钟 周期 数 。 在 代码 开始 和 结 
束 时 记录 这 个 时 钟 周 期 数 , 就 可 以 计算 代码 的 运行 时 间 。 若 想得到 以 秒 为 单位 的 代码 运行 时 间 ， 
可 使 用 另 一 个 方法 cv: :getTickFrequency () ， 它 返回 每 秒 的 时 钟 周期 数 ， 这 里 假定 CPU 
的 频率 是 固定 的 (对 于 较 新 的 CPU，, 频率 并 不 一 定 是 固定 的 )。 为 了 获得 某 个 函数 ( 或 代码 段 ) 
的 运行 时 间 ， 通 常 需 使 用 这 样 的 程序 模板 : 















































const int64 start = cv::getTickCount () ; 
colorReduce (image); // 调用 函数 
// 经 过 的 时 间 (单位 : 秒 ) 
double duration = (cv::getTickCount ()-start)/ 
Cv: :getTickFrequency (); 


2.5.2 ”实现 原理 


本 章 的 colorReduce 函数 有 几 种 实现 方式 ,此 处 将 列 出 每 种 方式 的 运行 时 间 , 实际 的 数据 
跟 你 使 用 的 计算 机 有 关 ( 这 里 使 用 配置 为 64 位 Intel Core i7 、 主 频 为 2.40 GHz 的 计算 机 )。 观 察 
运行 时 间 的 相对 差距 更 有 意义 。 此 外 ,测试 结果 也 跟 生 成 可 执行 文件 的 具体 编译 器 有 关 。 我 们 
采用 320x240 的 图 像 ， 测 试 减 色 操作 的 平均 运行 时 间 。 测 试 时 采用 三 种 不 同 的 配置 。 


(1) 处 理 器 采用 主 频 为 2.5 GHz 的 64 位 Intel i5 ,编译 器 为 Windows 10 下 的 Visual Studio 14 2015。 
(2) 处 理 器 采用 主 频 为 3.6 GHz 的 64 位 Intel i7， 编 译 器 为 Ubuntu Linux 下 的 gcc 4.9.2。 
(3) MacBook Pro (2011 版 )，CPU 为 2.3 GHz 的 Inteli5， 编译 器 为 clang++ 7.0.2。 


首先 比较 2.3.4 节 描述 的 三 种 减 色 运算 方法 。 












































配置 1 配置 2 配置 3 
整数 运算 0.867 ms 0.586 ms 1.119 ms 
模 运算 符 0.774 ms 0.527 ms 1.106 ms 
位 运算 符 0.015 ms 0.013 ms 0.066 ms 











有 趣 的 是 , 使 用 了 位 运算 符 的 方法 要 比 其 他 方法 快 得 多 , 而 男 外 两 种 方法 的 运行 时 间 非 常 接 
近 。 因 此 , 要 在 图 像 循 环 中 计算 出 结果 ， 花 些 时间 找 出 效率 最 高 的 方法 十 分 重要 ， 其 净 影 响 会 非 
常 明显 。 
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对 于 可 以 预先 计算 的 数值 ， 要 避免 在 循环 中 做 重复 计算 ,继而 浪费 时 间 。 例 如， 这 样 写 减 色 
函数 是 很 不 明智 的 : 





for (int i=0; i<image.cols * image.channels(); i++) { 
*data &= mask; 
*data++ += div/2; 


上 面 的 代码 需要 反复 计算 每 行 的 像素 数量 和 aiv/2 的 结果 。 改 进 后 的 代码 为 : 




















int nc= image.cols * image.channels(); 
uchar div2= div>>1; 


for (int i=0; i<nc; i++) { 
*(data+i) &= mask; 
*(data+i) += div2; 


一 般 来 说 ， 需 要 重复 计算 的 代码 会 比 优 化 后 的 代码 慢 10 倍 。 但 是 要 注意 ， 有 些 编译 器 能 够 
对 此 类 循环 进行 优化 ， 仍 会 生成 高 效 的 代码 。 

2.4 节 讨 论 了 使 用 迭代 器 〈 以 及 位 运算 符 ) 的 减 色 函 数 ， 它 的 运行 时 间 更 长 ， 在 上 述 三 种 配 
置 下 ， 运 行 时 间 分 别 为 0.480 ms 、0.320 ms 和 0.655 ms。 使 用 迭代 器 的 主要 目的 是 简化 图 像 扫 描 
过 程 ， 降 低 出 错 的 可 能 性 。 


为 了 进行 完整 的 测试 ， 我 们 实现 了 用 at 方法 访问 像素 的 函数 。 这 种 实现 方式 的 主 循 环 如 
下 所 示 : 








for (int j=0; j<nl; j++) { 
for (int i=0; i<nc; I++) { 
image.at<cv: :Vec3b>(j,i)[0 
image.at<cv: :Vec3b> 
image.at<cv: :Vec3b>(j,i)[1 
image.at<cv: :Vec3b>( 
image.at<cv: :Vec3b>(j,i)[2] 
image.at<cv: :Vec3b>(j,i) [2]/div*div + div/2; 
】 // 一 行 结 
} 
这 种 方法 的 运行 速度 较 慢 ， 分 别 为 0.925 ms、0.580 ms 和 1.128 ms。 该 方法 应 该 在 需要 随机 
访问 像素 的 时 候 使 用 ， 绝 不 要 在 扫描 图 像 时 使 用 。 
即使 处 理 的 元 素 总 数 相 同 , 使 用 较 短 的 循环 和 多 条 语句 通常 也 要 比 使 用 较 长 的 循环 和 单条 语 
句 的 运行 效率 高 。 与 之 类 似 ， 如 果 你 要 对 一 个 像素 执行 N 个 不 同 的 计算 过 程 ， 那 就 在 单个 循环 中 
执行 全 部 计算 ， 而 不 是 写 N 个 连续 的 循环 ， 每 个 循环 执行 一 个 计算 。 
我 们 还 做 过 连续 性 测试 ,针对 连续 图 像 生成 一 个 循环 , 而 不 是 对 行 和 列 运行 常规 的 二 重 循环 ， 
使 运行 速度 平均 提高 了 10%。 通 常情 况 下 ， 这 种 策略 是 非常 好 的 ， 因 为 它 会 使 速度 明显 提高 。 
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2.5.3 扩展 阅读 


还 有 一 个 提高 算法 运行 效率 的 方法 是 采用 多 线程 ， 尤 其 是 在 使 用 多 核 处 理 器 时 。OpenMP、 
Intel 线程 构建 模块 ( Threading Building Block，TBB ) 和 Posix 是 比较 流行 的 并 发 编程 API， 用 
于 创建 和 管理 线程 。 而 且 现在 c++11 本 身 就 支持 多 线程 。 












































2.5.4 ”参阅 





口 2.7.4 节 将 介绍 一 种 减 色 函数 的 实现 方法 ， 它 使 用 了 OpenCV 算法 网 像 运 算 符 ， 在 上 述 三 
种 配置 下 ， 运 行 时 间 分 别 为 0.091 ms 、0.047 ms 和 0.087 ms。 

口 4.2 节 将 介绍 一 种 基于 速 查 表 的 减 色 函数 实现 方法 ， 它 的 理念 是 预先 计算 所 有 减少 亮度 的 
值 ， 运 行 时 间 分 别 为 0.129 ms 、0.098 ms 和 0.206 ms。 








2.6 扫描 图 像 并 访问 相 邻 像素 


在 图 像 处 理 中 经 常 有 这 样 的 处 理 函 数 , 它 在 计算 每 个 像素 的 数值 时 ,需要 使 用 周边 像素 的 值 。 
如 果 相 邻 像素 在 上 一 行 或 下 一 行 ， 就 需要 同时 扫描 图 像 的 多 行 。 本 节 将 介绍 实现 方法 。 




















2.6.1 准备 工作 


为 了 便于 说 明 问 题 ， 我 们 将 使 用 一 个 锐 化 图 像 的 处 理 函 数 。 它 基于 拉 普 拉 斯 算 子 (将 在 第 6 
章 讨论 )。 在 图 像 处 理 领 域 有 一 个 众所周知 的 结论 : 如 果 从 图 像 中 减 去 拉 普 拉 斯 算 子 部 分 ， 图 像 
的 边缘 就 会 放大 ， 因 而 图 像 会 变 得 更 加 尖锐 。 

可 以 用 以 下 方法 计算 锐 化 的 数值 : 

sharpened pixel= 5*current-left-right-up-down; 


这 里 的 left 是 与 当前 像素 相 邻 的 左 侧 像素 ，up 是 上 一 行 的 相 邻 像素 ， 以 此 类 椎 。 


















































2.6.2 ”如 何 实现 


这 里 不 能 使 用 就 地 处 理 ， 用户 必 须 提供 一 个 输出 图 像 。 图像 扫描 中 使 用 了 三 个 指针 , 一 个 表 
示 当 前 行 、 一 个 表示 上 面 的 行 、 一 个 表示 下 面 的 行 。 男 外 ， 因 为 在 计算 每 一 个 像素 时 都 需要 访问 
与 它 相 邻 的 像素 ,所 以 有 些 像 素 的 值 是 无 法 计算 的 ， 比 如 第 一 行 、 最 后 一 行 和 第 一 列 、 最 后 一 列 
的 像素 。 这 个 循环 可 以 这 样 写 : 






































void sharpen(const cv::Mat &image, cv::Mat &result) { 





// 判断 是 否 需要 分 配 图 像 数 据 。 如 果 需 要 ， 就 分 配 
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result.create(image.size(), image.type()); 
int nchannels= image.channels(); // 获得 通道 数 
// 处 理 所 有 行 (除了 第 一 行 和 最 后 一 行 ) 


for (int j= 1; j<image.rows-1; j++) { 
const uchar* previous= image.ptr<const uchar>(j-1); // 上 一 行 
const uchar* current= image.ptr<const uchar>(j); // 当前 行 
const uchar* next= image.ptr<const uchar>(j+1); // 下 一 行 
uchar* output= result.ptr<uchar>(j); // 输出 行 
for (int i=nchannels; i<(image.cols-1)*nchannels; i++) { 

// 应 用 锐 化 算 子 

*output++= CV::saturate_cast<uchar>( 


5*current [i]-current [i-nchannels]- 
current [i+nchannels] -previous[i]-next[i]); 


} 


// 把 未 处 理 的 像素 设 为 0 


result.row(0) .setTo(cv::Scalar (0)); 
result .row i IOWS-— S71) .setTo (ov :Scalar (0)) 


( 
result.col (0).setTol(cv::Scalar (0)); 
i a 5 1).setTo(cv::Scalar (0)); 


} 


注意 这 个 函数 是 如 何 同时 适应 灰 度 图 像 和 彩色 图 像 的 。 如 果 我 们 在 测试 用 的 灰 度 图 像 上 执行 
函数 ， 将 得 到 如 下 结果 。 





夯 寻 Sharpened lImage 回 xX 
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2.6.3 ”实现 原理 





若 要 访问 上 一 行 和 下 一 行 的 相 邻 像素 ， 只 需 定义 额外 的 指针 ， 并 与 当前 行 的 指针 一 起 递增 ， 





然后 就 可 以 在 扫描 循环 内 访问 上 下 行 的 指针 了 。 


在 计算 输出 像素 的 值 时 ， 我 们 调用 了 Cv::Saturate cast 模板 函数 ， 并 传人 运算 结果 。 
这 是 因为 计算 像素 的 数学 表达 式 的 结果 经 常 超出 允许 的 范围 ( 即 小 于 0 或 大 于 255 )。 使 用 这 个 
函数 可 把 结果 调整 到 8 位 无 符号 数 的 范围 内 ， 具 体 做 法 是 把 小 于 0 的 数值 调整 为 0， 大 于 255 的 



































数值 调整 为 255 














这 就 是 cv::Saturate cast<ucha r> 呆 数 的 作用 。 此 外 ， 如 果 输 入 参数 是 


浮 点 数 ， 就 会 得 到 最 接近 的 整数 。 可 以 在 调用 这 个 函数 时 显 式 地 指定 其 他 数据 类 型 ， 以 确保 结果 





在 该 数据 类 型 定义 的 范围 之 内 。 





由 于 边框 上 的 像素 没有 完整 的 相 邻 像 素 , 因 此 不 能 用 前 面 的 方法 计算 ， 需 要 另行 处 理 。 这 里 
简单 地 把 它们 设置 为 0。 有 时 也 可 以 对 这 些 像素 做 特殊 的 计算 , 但 在 大 多 数 情况 下 ， 花 时 间 处 理 




















这 些 极 少数 像素 是 没有 意义 的 。 在 本 例 中 ,我们 用 两 个 特殊 的 方法 把 边框 的 像素 设置 为 了 0, 它 





们 是 row 和 col。 这 两 个 方法 返回 一 个 特殊 的 cv: :Mat 实例 ， 其 中 包含 一 个 单行 ROI 


(或 单列 








ROI )， 具 体 范 围 取决 于 参数 (第 1 章 讨论 过 感 兴趣 区 域 )。 这 里 没有 进行 复制 ， 因 为 只 要 这 个 一 
维 矩 阵 的 元 素 被 修改 ， 原 始 图 像 也 会 被 修改 。 我 们 用 setTo 方法 来 实现 这 个 功能 ， 此 方法 将 对 








和 矩阵 中 的 所 有 元 素 赋值 ， 代 码 如 下 所 示 : 
result.row(0) .setTo(cv::Scalar (0)); 


这 个 语句 把 结果 图 像 第 一 行 的 所 有 像素 设置 为 0。 对 于 三 通道 彩色 图 像 ， 需 要 使 
Scalar (a, b,c) 来 指定 三 个 数值 ， 分 别 对 像素 的 每 个 通道 赋值 。 


























2.6.4 扩展 阅读 
在 对 像素 邻 域 进行 计算 时 , 通常 用 一 个 核心 矩阵 来 表示 。 这 个 核心 矩阵 展现 了 如 何 ; 





用 CV:: 


办 与 计算 























相关 的 像素 组 合 起 来 , 才能 得 到 预期 结果 。 针对 本 节 使 用 的 锐 化 滤波 器 , 核心 矩阵 可 以 是 这 样 的 : 























除非 另 有 说 明 ， 当 前 像素 用 核心 矩阵 中 心 单 元 格 表示 。 核 心 矩 阵 中 的 每 个 单元 格 表示 相关 像 
素 的 乘法 系数 ,像素 应 用 核心 矩阵 得 到 的 结果 , 即 这 些 乘 积 的 累加 。 核 心 矩 阵 的 大 小 就 是 邻 域 的 
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大 小 (这 里 是 3x3 )。 从 这 个 描述 可 以 看 出 ， 根 据 锐 化 滤波 咒 的 要 求 ， 水 平和 垂直 方向 的 四 个 相 
邻 像素 与 -1 相 乘 ， 当 前 像素 与 5 相 乘 。 在 图 像 上 应 用 核心 矩阵 不 只 是 为 了 描述 方便 ， 它 也 是 信 
号 处 理 中 卷 积 概念 的 基础 。 核 心 矩 阵 定 义 了 一 个 用 于 图 像 的 滤波 器 。 


鉴于 滤波 是 图 像 处 理 中 的 常见 操作 , OpenCV 专门 为 此 定义 了 一 个 函数 , 即 cv: :filter2D。 
要 使 用 这 个 水 数 ， 只 需要 定义 一 个 内 核 ( 以 矩阵 的 形式 )， 调 用 函数 并 传 入 图 像 和 内 核 ， 即 可 返 
回 滤波 后 的 图 像 。 因 此 ， 使 用 这 个 函数 重新 定义 锐 化 函数 非常 容易 : 


void sharpen2D(const cv: :Mat &image, cv::Mat &result) { 



























































// 构造 内 核 (所 有 入 口 都 初始 化 为 0) 
cvV: :Mat kernel(3,3,CV_32F,cv::Scalar (0)); 
// 对 内 核 赋值 


kernel.at<float>(1,1)= 5.0; 
kernel.at<float>(0,1)= -1.0; 
kernel.at<float>(2,1)= -1.0; 
kernel.at<float>(1,0)= -1.0; 
kernel.at<float>(1,2)= -1.0; 


// 对 图 像 滤波 
cv::filter2D(image,result,image.depth(),kernel); 


} 

这 种 实现 方式 得 到 的 结果 与 前 面 的 完全 相同 〈 执行 效率 也 相同 )。 如 果 处 理 的 是 彩色 图 像 ， 
三 个 通道 可 以 应 用 同一 个 内 核 。 注意 , 使 用 大 内 核 的 filter2D 天数 是 特别 有 利 的 ,因为 这 时 它 
使 用 了 更 高 效 的 算法 。 

















2.6.5 参阅 
口 第 6 章 将 更 详细 地 解释 图 像 滤 波 的 概念 。 


2.7 ”实现 简单 的 图 像 运算 


图 像 就 是 普通 的 矩阵 , 可 以 进行 加 、 减 、 乘 、 除 运算 , 因此 可 以 用 多 种 方式 组 合 图 像 - OpenCV 
提供 了 很 多 图 像 算 法 运算 符 ， 本 节 将 讨论 它们 的 用 法 。 


























2.7.1 准备 工作 
我 们 使 用 算法 运算 符 ， 将 第 二 幅 图 像 与 输入 图 像 进行 组 合 。 下 图 就 是 第 二 幅 图 像 。 




















40 第 2 章 


操作 像素 








2.7.2 ”如 何 实现 
这 里 要 把 两 幅 图 像 相 加 。 这 种 方法 可 以 用 于 创建 特效 图 或 覆盖 图 像 中 的 信息 。 我 们 可 以 使 用 




















cv: :adq 也 数 来 实 
函数 : 


岗 相 加 功能 ,但 因为 这 次 是 想得到 加 权 和 , 因此 使 用 更 精确 的 cv: :addqweighted 


cv::addWeighted (imagel,0.7,image2,0.9,0.,result); 


操作 的 结果 是 一 个 新 图 像 。 




















2.7.3 ”实现 原理 


所 有 二 进 制 运算 函数 的 用 法 都 一 样 : 提供 两 个 输入 参数 ,指定 一 个 输出 参数 。 有 时 还 可 以 指 
定 加 权 系 数 ， 作 为 运算 时 的 缩放 因子 。 每 个 函数 都 可 以 有 多 种 格式 ，cv: :add 是 典型 的 具有 多 


种 格式 的 函数 ; 
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/Slil= [lil+bbil]; 

cv::add (imageA, imageB,resultC); 

/4 LTS LL] 

cv::add (imageA,cv::Scalar (k),resultcC); 

// cf[il= kl*a[li]+k2*b[i]+k3; 

cv::addWeighted (imageA,k1,imageB, k2,k3,resultC); 
L/L] K*a[lil+B[lil; 

cv::scaleAdd (imageA,k,imageB,resultC); 


有 些 函数 还 可 以 指定 一 个 掩 码 : 


// 如 果 (mask[i]) c[i]= a[li]+b[i]; 
cv::add(imageA, imageB, resultC,mask); 


使 用 掩 码 后 ， 操 作 就 只 会 在 掩 码 值 非 空 的 像素 上 执行 〈 撼 码 必须 是 单 通道 的 )。 看 一 下 
cv::subtract、cv::absdiff、cv::multiply 和 cv::divide 等 函数 的 多 种 格式 。 此 外 还 
有 位 运算 符 ( 对 像素 的 二 进 制 数值 进 行 按 位 运算 ) cv: :bitwise_and、cv: :bitwise_or、 

cv: :bitwise_xor 和 cv::bitwise_not。cv::min 和 cv: :max 运算 符 也 非常 实用 ， 它 们 能 


找到 每 个 元 素 中 最 大 或 最 小 的 像素 值 。 


在 所 有 场合 都 要 使 用 cv: :saturate_cast 函数 (详情 请 参见 2.6 节 )， 以 确保 结果 在 预定 
的 像素 值 范 围 之 内 (避免 上 溢 或 下 游 )。 

这 些 图 像 必 定 有 相同 的 大 小 和 类 型 ( 如 果 与 输入 图 像 的 大 小 不 匹配 , 输出 图 像 会 重新 分 配 )。 
由 于 运算 是 逐个 元 素 进行 的 ， 因 此 可 以 把 其 中 的 一 个 输入 图 像 用 作 输 出 图 像 。 


还 有 运算 符 使 用 单个 输入 图 像 ， 它们 是 cv: SQrt Gv :DOW CV Vabs, Cy CUBeroot. 
cv: :exp 和 cv: :10g。 事实 上 ,无 论 需要 对 图 像 像 素 做 什么 运算 ，OpenCV 几乎 都 有 相应 的 函数 。 


















































2.7.4 扩展 阅读 

对 于 cv: :Mat 实例 或 者 实例 中 的 个 别 通道 ， 也 可 以 使 用 普通 的 C++ 运算 符 。 下 面 两 节 将 解 
释 如 何 实现 。 

1. 重 载 图 像 运算 符 

OpenCYV 的 大 多 数 运算 函数 都 有 对 应 的 重 载运 算 符 , 因此 调用 cv: :adqdqweighted 的 语句 也 
可 以 写成 : 

result= 0.7*imagel+0.9*image2; 


这 种 代码 更 加 紧凑 也 更 容易 阅读 。 这 两 种 计算 加 权 和 的 方法 是 等 效 的 。 特 别 指 出 ,这 两 种 方 
法 都 会 调用 cv::SsSaturate_ cast 函数 。 


大 部 分 C++ 运算 符 都 已 被 重 载 ， 其 中 包括 位 运算 符 &、 |、 ^、~ 和 函数 min、max、abs。 
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比较 运算 符 <、<=、==、!=、> 和 >= 也 已 被 重 载 ， 它 们 返回 一 个 8 位 的 二 值 图 像 。 此 外 还 有 短 
阵 乘法 m1*m2 (其 中 ml 和 m2 都 是 cv: :Mat 实例 )、 和 矩阵 求 着 ml.inv()、 变 位 ml.t ()、 行 列 
式 ml.aqeterminant ()、 求 范 数 v1.norm()、 义 乘 v1.cross (v2)、 点 乘 v1.dot (v2), 等 等 。 
在 理解 这 点 后 ， 你 就 会 使 用 相应 的 组 合 赋值 符 了 ( 例如 += 运 算 符 )。 


2.5 节 讨 论 了 一 个 减 色 函 数 ， 它 使 用 循环 来 扫描 图 像 的 像素 并 对 像素 进行 运算 操作 。 利 用 本 
节 所 学 ， 可 以 使 用 针对 输入 图 像 的 运算 符 简单 地 重 写 这 个 函数 : 



































image= (image&cv::Scalar (mask,mask,mask)) 
+CV: :Scalar (div/2,div/2,div/2); 























由 于 被 操作 的 是 彩色 图 像 ， 因此 使 用 了 cv: :scalar。 使 用 图 像 运算 符 可 以 简化 代码 、 提 高 
开发 效率 ， 因 此 在 大 多 数 场合 都 应 考虑 采用 。 

2. 分 割 图 像 通道 

我 们 有 时 需要 分 别处 理 图 像 中 的 不 同 通道 , 例如 只 对 图 像 中 的 一 个 通道 执行 某 个 操作 。 这 当 
然 可 以 通过 图 像 扫描 循环 实现 ,但 也 可 以 使 用 cv: : split 函数 ， 将 图 像 的 三 个 通道 分 别 复制 到 
三 个 cv: :Mat 实例 中 。 假 设 我 们 要 把 一 张 南 景 图 只 加 到 蓝 色 通道 中 ， 可 以 这 样 实现 : 



































// 创建 三 幅 图 像 的 向 量 

std: :vector<cv: :Mat> planes; 

// 将 一 个 三 通道 图 像 分 割 为 三 个 单 通道 图 像 
cv::split (imagel,planes); 

// 加 到 蓝 色 通道 上 

Dlanes[0]+= image2; 

// 将 三 个 单 通道 图 像 合并 为 一 个 三 通道 图 像 


cv: :merge (Planes, result) ， 


这 里 的 cv: :merge 函数 执行 反 向 操作 ， 即 用 三 个 单 通道 图 像 创建 一 个 彩色 图 像 。 








2.8 图 像 重 映射 


在 本 章 的 前 面 几 节 中 , 我 们 学 习 了 如 何 读 取 和 修改 图 像 的 像素 值 , 最 后 一 节 来 看 看 如 何 通 过 
移动 像素 修改 图 像 的 外 观 。 这 个 过 程 不 会 修改 像素 值 ， 而 是 把 每 个 像素 的 位 置 重 新 映射 到 新 的 位 
置 。 这 可 用 来 创建 图 像 特 效 ， 或 者 修正 因 镜 片 等 原因 导致 的 图 像 扭 曲 。 

















2.8.1 如 何 实现 

要 使 用 OpenCV 的 remap 函数 ， 首 先 需 要 定义 在 重 映射 处 理 中 使 用 的 映射 参数 ， 然 后 把 映 
射 参 数 应 用 到 输入 图 像 。 很 明显 , 定义 映射 参数 的 方式 将 决定 产生 的 效果 。 这 里 定义 一 个 转换 函 
数 ， 在 图 像 上 创建 波浪 形 效 果 : 
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// 重 映射 图 像 ， 创 建 波浪 形 效 果 


void wave(const cv::Mat &image, cv::Mat &result) { 


// 映射 参数 
cv::Mat srcx(image.rows,image.cols,CV_32F); 
cv::Mat srcY(image.rows,image.cols,CV_32F); 





// 创建 映射 参数 
for (int i=0; i<image.rows; i++) { 
for (int j=0; j<image.cols; j++) { 


// (i,j) 像 素 的 新 位 置 
srcx.at<float>(i,j)= j; // 保持 在 同一 列 
// 原来 在 第 i 行 的 像素 ,现在 根据 一 个 正弦 曲线 移动 
srcY.at<float>(i,j)= i+5*sin(j/10.0); 
} 
} 


// 应 用 映射 参数 





cv: :remap (image, // 源 图 像 
result, // 目标 图 像 
srcx, // 文 映 射 
srcy, // y 映射 
CV: :INTER_LINEAR); // 填补 方法 


} 
得 到 的 结果 如 下 所 示 。 





由 好 Remapped image 加 xX 





2.8.2 ”实现 原理 


重 映射 是 通过 修改 像素 的 位 置 , 生 成 一 个 新 版 本 的 图 像 。 为 了 构建 新 图 像 , 需要 知道 目标 图 
像 中 每 个 像素 的 原始 位 置 。 因 此 , 我们 需要 的 映射 函数 应 该 能 根据 像素 的 新 位 置 得 到 像素 的 原始 
位 置 。 这 个 转换 过 程 描述 了 如 何 把 新 图 像 的 像素 映射 回 原始 图 像 , 因此 称 为 反 向 映射 。 在 OpenCV 
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中 ,可 以 用 两 个 映射 参数 来 说 明 反 向 映射 ， 一个 针对 x 坐标 ， 另 一 个 针对 y 坐标。 它们 都 用 浮 点 
数 型 的 cv: :Mat 实例 来 表示 : 
// 映射 参数 


cv::Mat srcx(image.rows,image.cols,CV_32F); // 文 方向 
cv::Mat srcY(image.rows,image.cols,CV_32F); // y 方向 


这 些 矩 阵 的 大 小 决定 了 目标 图 像 的 大 小 。 用 下 面 的 代码 可 以 从 原始 图 像 获得 目标 图 像 中 
(i,j) 像 素 的 值 : 

( srcx.at<float>(i,j) , srcY.at<float>(i,j) ) 

第 1 章 展示 过 的 图 像 翻转 效果 也 可 以 用 下 面 的 映射 参数 创建 : 

// 创建 映射 参数 


for (int i=0; i<image.rows; I++) { 
for (int j=0; j<image.cols; j++) { 








// 水 平 翻转 
srcxX.at<float>(i,j) 
srcY.at<float>(i,j) 
} 
上 


只 需 调 用 OpenCyV 的 remap 函数 ， 即 可 生成 结果 图 像 : 


// 应 用 映射 参数 


image.cols-j-1; 
1 


ll 





cv::remap (image, // 源 图 像 
result, // 目标 图 像 
srcx, // 文 方向 映射 
STCY， // y 方向 映射 


cv: :INTER_LINEAR) ; // 播 值 法 


有 趣 的 是 , 这 两 个 映射 参数 包含 的 值 是 浮 点 数 。 因 此 ,目标 图 像 中 的 像素 可 以 映射 回 一 个 非 
整数 的 值 ( 即 处 在 两 个 像素 之 间 的 位 置 )， 这 使 我 们 可 以 随意 定义 映射 参数 ， 非 常 实用 。 例 如 在 
前 面 的 重 映射 例子 中 , 我 们 用 了 一 个 sinusoidal 函数 进行 转换 , 但 这 也 导致 必须 在 真实 像素 之 
间 插 入 虚拟 像素 的 值 。 可 以 采用 不 同 的 方法 实现 像素 插值 ， 并 且 可 用 remap 函数 的 最 后 一 个 参 
数 来 表示 选择 了 哪 种 方法 。 像 素 插 值 是 图 像 处 理 中 的 一 个 重要 概念 ， 将 在 第 6 章 讨 论 。 














2.8.3 ”参阅 


口 6.2.3 节 将 解释 像素 插值 的 概念 :。 
口 11.4 节 将 使 用 重 映射 来 校正 图 像 中 的 镜头 扭曲 。 
口 10.4 节 将 使 用 透视 图 像 变形 来 构建 图 像 全 景 。 
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本 章 包 括 以 下 内 容 : 


口 用 策略 设计 模式 比较 颜色 ; 

口 用 GrabCut 算法 分 割 图像 ; 

口 转换 颜色 表示 法 ; 

口 用 色调 、 饱 和 度 和 亮度 表示 颜色 。 





3.1 简介 


人 类 视觉 系统 的 一 个 重要 特征 就 是 能 感知 颜色 。 人 有 眼 的 视网膜 中 有 一 种 被 称 作 视 锥 细胞 的 特 
殊 感 光 细 胞 ， 专 门 负责 感知 各 种 颜色 。 视 锥 细胞 分 为 三 种 ， 分 别 负责 不 同 波长 的 光线 ， 人 脑 就 是 
通过 这 些 细胞 产生 的 信号 来 识别 各 种 颜色 的 。 大 多 数 动物 却 只 有 视 杆 细胞 , 它 对 光线 的 敏感 度 更 
高 ,但 是 覆盖 了 整个 可 见 光 的 光谱 ,无 法 区 分 不 同 的 颜色 。 人 眼中 的 视 杆 细胞 主要 分 布 在 视网膜 
的 边缘 ， 而 视 锥 细胞 分 布 在 视网膜 的 中 心 。 


在 数码 摄影 中 ， 则 是 用 加 色 法 三 原色 ( 红 、 绿 、 蓝 ) 来 构建 各 种 颜色 ， 将 它们 组 合 起 来 可 以 
产生 各 种 颜色 ,上 且 色 域 很 宽 。 实 际 上 , 选用 这 三 种 颜色 也 模仿 了 人 类 的 颜色 识别 系统 一 一 人 眼中 
不 同 的 视 锥 细胞 分 别 负责 红色 、 绿 色 和 蓝 色 附近 的 光谱 。 本 章 将 分 析 像 素 的 颜色 ， 并 介绍 如 何 用 
颜色 信息 分 割 图 像 。 此 外 ， 在 处 理 彩色 图 像 时 ， 还 可 以 使 用 其 他 的 颜色 表示 法 。 


























3.2 ”用 策略 设计 模式 比较 颜色 


假设 我 们 要 构建 一 个 简单 的 算法 , 用 来 识别 图 像 中 具有 某 种 颜色 的 所 有 像素 。 这 个 算法 必须 
输入 一 幅 图 像 和 一 个 颜色 ， 并 且 返 回 一 个 二 值 图像 ， 显 示 具 有 指定 颜色 的 像素 。 在 运行 算法 前 ， 
还 要 指定 一 个 参数 ， 即 能 接受 的 颜色 的 公差 。 


本 节 将 采用 策略 设计 模式 来 实现 这 一 目标 , 它 是 一 种 面向 对 象 的 设计 模式 , 用 很 巧妙 的 方法 
将 算法 封装 进 类 。 采 用 这 种 模式 后 ,可 以 很 轻松 地 替换 算法 , 或 者 组 合 多 个 算法 以 实现 更 复杂 的 
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功能 。 而 且 这 种 模式 能 够 尽 可 能 地 将 人 


法 的 复杂 性 隐藏 在 一 个 直观 的 编程 接口 后 面 , 更 有 利 








法 的 部 署 。 


3.2.1 如 何 实现 











一 旦 用 策略 设计 模式 把 算法 封装 进 类 , 就 可 以 通过 创建 类 的 实例 来 部 署 算法 
在 运行 构造 函数 时 ,类 的 实例 会 用 





程序 初始 化 的 时 候 创 建 的 。 
其 立即 进入 可 用 状态 。 我 们 还 可 以 用 









































于 算 


， 实 例 通常 是 在 
耻 认 值 初始 化 算法 的 各 种 参数 ,使 














以 用 多 种 部 件 (文本 框 滑动 条 等 ) 显示 和 修改 参 











调用 颜色 检测 算法 
int main() 
{ 
// 1. 创 建 图 像 处 


ColorDetector 


TT 





里 器 对 象 


cdetect; 





// 2. 读 取 输 入 的 图 像 
cv::Mat image= cv: 
if (image.empty()) 


:Imread ( 
return 0; 


// 3. 设 置 输入 参数 
cdetect.setTargetColor(230,190,130); 


// 4. 处 理 图 像 并 显示 结果 

cv: :namedWindow ("result"); 
: :Mat result 
: :imshow("resultn" 








,result); 


: :WaitKey () ; 
return 0; 
} 


行 这 个 程序 ， 检 测 第 





运 和 





下 一 方 将 展示 一 个 策略 类 的 结构 ,这 里 先 看 一 


2 前 用 过 的 彩色 城堡 图 中 的 蓝天 ， 输 出 


数 ， 用 户 操 作 起 来 很 容易 。 


有 适当 的 方法 来 读 写 算法 的 参数 值 。 在 GUI 应 用 程序 中 ， 可 














个 部 署 和 使 用 它 的 例子 。 写 


"Boldt jpg"); 


// 这 里 表示 蓝天 


= cdetect .process (image); 





吉 果 如 下 所 示 。 








一 个 简单 的 主 函 数 ， 
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这 里 的 白色 像素 表示 检测 到 指定 的 颜色 ， 黑 色 表示 没有 检测 到 。 




















很 明显 , 封装 进 这 个 类 的 算法 相对 简单 ( 下面 会 看 到 它 只 是 组 合 了 一 个 扫描 循环 和 一 个 公 


参数 )， 当 算法 的 实现 过 程 变 得 更 加 复杂 、 步 又 繁 多 并 且 包 含 多 个 参数 时 ， 策 略 设计 模式 才 会 真 
正 展现 出 强大 的 威力 。 





3.2.2 ”实现 原理 


这 个 算法 的 核心 过 程 非常 向 ye 是 对 每 个 像素 进行 循环 扫描 , 把 它 的 颜色 和 目标 颜色 做 比 
较 。 利 用 2.3 节 所 学 ， 可 以 这 样 写 个 循环 : 


// 取得 选 代 器 

Cv::Mat_<cv::Vec3b>::const_iterator it= image.begin<cv::Vec3b>(); 
Cv::Mat_<cv::Vec3b>::const_iterator itend= image.end<cv::Vec3b>(); 
Cv::Mat_<uchar>::iterator itout= result.begin<uchar>(); 











// 对 于 每 个 像素 


for ( ; it!= itend; ++it, ++itout) { 


// 比较 与 目标 颜色 的 差距 
if (getDistanceToTargetColor(*it)<=maxDist) { 
Tou 2557 
} else { 
GE 
} 
} 





cv: :Mat 类 型 的 变量 image 表示 输入 图 像 ，result 表示 输出 的 二 值 图 像 。 因 此 要 先 创建 
迭代 器 ,这 样 扫描 循环 就 很 容易 实现 了 。 注 意 ,， 输 入 图 像 迭 代 器 定义 为 常量 ,它们 的 元 素 无 法 修 
改 。 在 每 个 迭代 步骤 中 计算 当前 像素 的 颜色 与 目标 颜色 的 差距 ， 检 查 它 是 否 在 公差 (maxDist ) 
范围 之 内 。 如 果 是 ,就 在 输出 图 像 中 赋值 255( 白色 ), 否则 就 赋值 0( 黑色 ). 这 里 用 getDistance 
ToTargetColor 方法 来 计算 与 目标 颜色 的 差距 。 


也 有 其 他 可 以 计算 这 个 差距 的 方法 ,例如 计算 包含 RGB 颜色 值 的 三 个 向 量 之 间 的 欧 几 里 得 
距离 。 为 了 简化 计算 过 程 ， 我 们 把 RGB 值 差距 的 绝对 值 ( 也 称 为 城区 距离 ) 进行 累加 。 注 意 ， 
在 现代 体系 结构 中 , 浮 点 数 的 欧 几 里 得 距离 的 计算 速度 可 能 比 简单 的 城区 距离 更 快 (还 可 以 采用 
平方 欧 氏 距离 ， 以 避免 耗 时 的 平方 根 运算 )， 在 做 设计 时 也 要 考虑 到 这 点 。 另 外 ， 为 了 增加 灵活 


性 ， 我 们 依据 getcolorDistance 方法 来 编写 getDistanceToTargetColor 方法 : 
































// 计算 与 目标 颜色 的 差距 

int getDistanceToTargetColor (const cv::Vec3b& color) const { 
return getColorDistance (color, target); 

} 

// 计算 两 个 颜色 之 间 的 城区 距离 

int getColorDistance(const cv::Vec3b& color1， 

Const cv::Vec3b& color2) const { 
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return abs(color1[0]-color2[0])+ 
abs (color1[1]-color2[1])+ 
abs (CoOLForL[2] CoLoOr2[2]) 3 
} 
我 们 用 cv: :vec3d 存储 三 个 无 符号 字符 型 , 即 颜色 的 RGB 值 。 变量 target 表示 指定 的 目 
标 颜 色 ， 是 算法 类 的 成 员 变 量 。 现 在 来 定义 处 理 方法 。 用 户 提供 一 个 输入 图 像 ， 图 像 扫描 完成 后 
即 返回 结果 : 














cvV::Mat ColorDetector: :Process (Const cv::Mat &image) { 


// 必要 时 重新 分 配 二 值 映像 
// 与 输入 图 像 的 尺寸 相同 ， 不 过 是 单 通道 
result.create (image.size(),CV_8U); 





// 在 这 里 放 前 面 的 处 理 循环 
return result; 


} 

在 调用 这 个 方法 时 , 一 定 要 检查 输出 图 像 (包含 二 值 映 像 ) 是 否 需 要 重新 分 配 ， 以 匹配 输入 
图 像 的 尺寸 。 因 此 我 们 使 用 了 cv: :Mat 的 create 方法 。 注 意 ， 只 有 在 指定 的 尺寸 或 深度 与 当 
前 图 像 结构 不 匹配 时 ， 它 才 会 进行 重新 分 配 。 


我 们 已 经 定义 了 核心 的 处 理 方法 ,下 面 就 看 一 下 为 了 部 署 该 算法 ,还 需要 添加 哪些 额外 方法 。 
前 面 已 经 明确 了 算法 需要 的 输入 和 输出 数据 ， 因 此 要 定义 类 的 属性 来 存储 这 些 数据 : 


class ColorDetector { 
private: 






































// 允许 的 最 小 差距 
int maxDist; 

// 目标 颜色 
CVv::Vec3b target; 


// 存储 二 值 映像 结果 的 图 像 
cv::Mat result; 
要 为 封装 了 算法 的 类 (已 命名 为 ColorDetector ) 创建 实例 ， 就 需要 定义 一 个 构造 函数 。 
使 用 策略 设计 模式 的 原因 之 一 ,就 是 让 算法 的 部 署 尽 可 能 简单 。 最 简单 的 构造 函数 当然 是 空 函数 ， 
它 会 创建 一 个 算法 类 的 实例 ， 并 处 于 有 效 状 态 。 然 后 在 构造 函数 中 初始 化 全 部 输入 参数 , 设置 为 
默认 值 (或 采用 通常 会 带 来 好 结果 的 值 )。 这 里 认为 通常 能 接受 的 公差 参数 是 100。 我 们 还 需要 
设置 默认 的 目标 颜色 ， 这 里 选用 黑色 ( 选用 黑色 没有 什么 特别 的 原因 )， 总 的 原则 是 要 确保 输入 
值 可 预测 并 且 有 效 。 
// 空 构造 函数 


// 在 此 初始 化 默认 参数 
ColorDetector() : maxDist(100), target (0,0,0) {} 
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也 可 以 不 使 用 空 的 构造 函数 , 而 是 采用 复杂 的 构造 函数 ,要 求 用 户 输入 目标 颜色 和 颜色 距离 : 
// 另 一 种 构造 函数 ， 使 用 目标 颜色 和 颜色 距离 作为 参数 


ColorDetector (uchar blue, uchar green, uchar red, int mxDist); 
创建 该 算法 类 的 用 户 此 时 可 以 立即 调用 处 理 方法 并 传 入 一 个 有 效 的 图 像 , 然后 得 到 一 个 有 效 
的 输出 。 这 是 策略 设计 模式 的 男 一 个 目的 ， 即 只 要 保证 参数 正确 , 算法 就 能 正常 运行 。 用 户 显然 
希望 使 用 个 性 化 设置 ， 我 们 可 以 用 相应 的 设置 方法 和 获取 方法 来 实现 这 个 功能 。 首 先 要 实现 
color 公差 参数 的 定制 : 
// 设置 颜色 差距 的 阅 值 


// 阅 值 必须 是 正 数 ， 否则 就 设 为 0 
void setColorDistanceThreshold(int distance) { 























if (distance<0) 
distance=0; 
maxDist= distance; 


} 


// 取得 颜色 差距 的 阅 值 
int getColorDistanceThreshold() const { 
return maxDist; 


} 


意 , 我 们 首先 检查 了 输入 的 合法 性 。 表 次 强调 ,这 是 为 了 确保 算法 运行 的 有 效 性 。 可 以 用 
类 似 的 方法 设置 目标 颜色 : 


// 设置 需要 检测 的 颜色 

void setTargetColor (uchar blue, 
uchar green, 
uchar red) { 





// 次 序 为 BGR 
target = cv::Vec3b(blue, green, red); 
} 
// 设置 需要 检测 的 颜色 
void setTargetColor(cv::Vec3b color) { 
target= color; 


} 


// 取得 需要 检测 的 颜色 
cV::Vec3pb getTargetColor() const { 
return target; 


} 


这 次 我 们 提供 了 setTargetcolor 方法 的 两 种 定义 ， 第 一 个 版 本 用 三 个 参数 表示 三 个 颜色 
组 件 ， 第 二 个 版 本 用 cv: :vec3p 保存 颜色 值 。 再 次 强调 ， 这 么 做 是 为 了 让 算法 类 更 便于 使 用 ， 
使 用 户 只 需要 选择 最 合适 的 设置 函数 。 
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3.2.3 扩展 阅读 


例子 中 的 算法 可 识别 出 图 像 中 与 指定 目标 颜色 足够 接近 的 像素 。 过 程 中 已 经 完成 了 计算 步 
又 。 有 趣 的 是 ，OpenCy 中 有 一 个 具有 类 似 功 能 的 函数 ， 可 以 从 图 像 中 提取 出 与 特定 颜色 相关 联 
的 部 件 。 男 外 ， 我 们 也 可 以 用 函数 对 象 来 补充 策略 设计 模式 。OpenCV 中 定义 了 一 个 基 类 
cv: :Algorithm， 实 现 策 略 设 计 模 式 的 概念 。 




















1. 计算 两 个 颜色 向 量 间 的 距离 
要 计算 两 个 颜色 向 量 间 的 距离 ， 可 使 用 这 个 简单 的 公式 : 














return abs (color[0]-target [0])+ 
abs (color[1]-target [1])+ 
abs (color[2]-target [2]); 


然而 ，OpenCV 中 也 有 计算 向 量 的 欧 几 里 得 范 数 的 函数 ， 因 此 也 可 以 这 样 计算 距离 : 





return static cast<int>( 
cv: :norm<int,3>(cv::Vec3i(color[0]-target[0], 
color[1]-target[1], 
color[2]-target [2]))); 


改 用 这 种 方式 定义 getDistance 方法 后 ,得 到 的 结果 与 原来 的 非常 接近 。 这 里 之 所 以 使 用 
cv: :Vec3i (三 个 向 量 的 整 型 数组 )， 是 因为 减法 运算 得 到 的 是 整数 值 。 

还 有 一 点 非常 有 趣 ， 回 顾 一 下 第 2 章 的 内 容 , 我 们 会 发 现 OpenCV 中 和 矩阵 和 向 量 等 数据 结构 
定义 了 基本 的 算术 运算 符 。 因 此 ， 有 人 会 想 这 样 计算 距离 : 





























return static cast<int>( cv::norm<uchar,3>(color-target));// 错误 | 

这 种 做 法 看 上 去 好 像 是 对 的 , 但 实际 上 是 错误 的 , 因为 为 了 确保 结果 在 输入 数据 类 型 的 范围 
之 内 (这 里 是 uchar )， 这 些 运 算 符 通常 都 调用 了 saturate_cast (详情 请 参见 2.6 节 )。 因 此 
在 target 的 值 比 color 大 的 时 候 ， 结 果 就 会 是 0 而 不 是 负数 。 正 确 的 做 法 应 该 是 : 















































cv::Vec3b dist; 
cv::absdiff (color,target,dist); 
return cv::sum(dist)[0]; 


不 过 在 计算 三 个 数组 间距 离 时 调用 这 两 个 函数 的 效率 并 不 高 。 
2. 使 用 OpenCYV 函数 


本 节 采 用 了 在 循环 中 使 用 迭代 咒 的 方法 来 进行 计算 。 还 有 一 种 做 法 是 调用 OpenCV 的 系列 函 
数 ， 也 能 得 到 一 样 的 结果 。 因 此 ， 检 测 颜色 的 方法 还 可 以 这 样 写 : 

















cvV::Mat ColorDetector: :Process (Const cv::Mat &image) { 
cvsMat outputs 


// 计算 与 目标 颜色 的 距离 的 绝对 值 
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cv::absdiff (image,cv::Scalar (target),output); 


// 把 通道 分 割 进 3 幅 图 像 
std: :vector<cv: :Mat> images; 
cv::split (output, images); 


// 3 个 通道 相 加 (这 里 可 能 出 现 饱 和 的 情况 ) 
output= images[0]+images[1]+images [2]; 





// 应 用 阅 值 

cv::threshold (output, // 相同 的 输入 /输出 图 像 
output, 
maxDist, // 阅 值 (必须 <256) 
255 // 最 大 值 


CV: :THRESH_BINARY_INV); // 阅 值 化 模式 


return output; 


} 

该 方法 使 用 了 absdqiff 函数 计算 图 像 的 像素 与 标量 值 之 间 差距 的 绝对 值 。 该 函数 的 第 二 个 
参数 也 可 以 不 用 标量 值 ， 而 是 改 用 男 一 幅 图 像 ， 这 样 就 可 以 逐个 像素 地 计算 差距 。 因 此 两 幅 图 像 
的 尺寸 必须 相同 。 然后 , 用 split 函数 提取 出 存放 差距 的 图 像 的 单个 通道 (详情 请 参见 2.7.4 节 ) 
以 便 求 和 。 注 意 ， 累 加 值 有 可 能 超过 255, 但 因为 饱和 度 对 值 范围 有 要 求 ， 所 以 最 终结 果 不 会 超 
过 255。 这 样 做 的 结果 ， 就 是 这 里 的 maxDist 参数 也 必须 小 于 256。 如 果 你 觉得 这 样 不 合理 ， 
可 以 进行 修改 。 


最 后 一 步 是 用 cv: :threshola 消 数 创建 一 个 二 值 图 像 。 这 个 函数 通常 用 于 将 所 有 像素 与 某 
个 阔 值 (第 三 个 参数 ) 进行 比较 ， 并 且 在 常规 阔 值 化 模式 (cv: :THRESH_BINARY ) 下 ,将 所 有 
大 于 指定 阔 值 的 像素 赋值 为 预定 的 最 大 值 ( 第 四 个 参数 )， 将 其 他 像素 赋值 为 0。 这 里 使 用 相反 
的 模式 〈cv: :THRESH_BINARY_INV ) 把 小 于 或 等 于 冰 值 的 像素 赋值 为 预定 的 最 大 值 。 此 外 还 
有 cv: :THRESH_TOZERO 和 cv: :THRESH_TOZERO_INV 模式 ， 它 们 使 大 于 或 小 于 阔 值 的 像素 保持 


不 变 。 


般 来 说 ， 最 好 直接 使 用 OpenCYV 函数 。 它 可 以 快速 建立 复杂 程序 ,减少 潜在 的 错误 ， 而 且 

程序 的 运行 效率 通常 也 比较 高 ( 得 益 于 OpenCV 项 目 参 与 者 做 的 优化 工作 )。 不 过 这 样 会 执行 很 
多 的 中 间 步 又 ， 消 耗 更 多 内 存 。 

3. floodFi11l 加 数 

ColorDetector 类 可 以 在 一 幅 图 像 中 找 出 与 指定 颜色 接近 的 像素 ， 它 的 判断 方法 是 对 像素 
进行 逐个 检查 。cv: :floodqFill 函数 的 做 法 与 之 类 似 ， 但 有 一 个 很 大 的 区 别 ， 那 就 是 它 在 判断 
一 个 像素 时 ， 还 要 检查 附近 像素 的 状态 ， 这 是 为 了 识别 某 种 颜色 的 相关 区 域 。 用 户 只 需 指定 一 个 
起 始 位 置 和 人 允许 的 误差 ， 就 可 以 找 出 颜色 接近 的 连续 区 域 。 


首先 根据 亚 像素 确定 搜寻 的 颜色 ， 并 检查 它 旁 边 的 像素 ， 判 断 它们 是 否 为 颜色 接近 的 像素 ; 
然后 ,继续 检查 它们 旁边 的 像素 ,并 持续 操作 。 这 样 就 可 以 从 图 像 中 提取 出 特定 颜色 的 区 域 。 例 
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如 要 从 图 中 提取 出 蓝天 ， 可 以 执行 以 下 语句 : 


cv::floodFill (image, // 输入 /输出 图 像 
cv::Point (100, 50), // 起 始点 
cv::Scalar(255，255，255)， // 填充 颜色 
(cv: :Rect*)0, // 填充 区 域 的 边界 和 矩 形 
cv::Scalar (35, 35, 35), // 偏差 的 最 小 /最 大 阅 值 
cv::Scalar (35, 35, 35), // 正 差 阔 值 ， 两 个 阅 值 通常 相等 


CV: :FLOODFILL_FIXED_RANGE); // 与 起 始点 像素 比较 


图 像 中 亚 像素 (100, 50) 所 处 的 位 置 是 天 空 。 函 数 会 检查 所 有 的 相 邻 像素 ， 颜 色 接近 的 像素 会 
被 重 绘 成 第 三 个 参数 指定 的 新 颜色 。 为 了 判断 颜色 是 否 接近 , 需要 分 别 定义 比 参考 色 更 高 或 更 低 
的 值 作为 阔 值 。 这 里 使 用 固定 范围 模式 ， 即 所 有 像素 都 与 亚 像素 的 颜色 进行 对 比 ， 默 认 模式 是 将 
每 个 像素 与 和 它 邻 近 的 像素 进行 对 比 。 得 到 的 结果 如 下 图 所 示 。 


























转 Flood Fill result 加 X 














这 种 算法 重 绘 了 一 个 独立 的 连续 区 域 ( 这 里 是 把 天 空 画 成 白色 )。 即 使 其 他 地 方 有 颜色 接近 
的 像素 (例如 水 面 )， 除 非 它们 与 天 空 相连 ， 否 则 也 不 会 被 识别 出 来 。 


4. 仿 函 数 或 函数 对 象 


利用 C++ 的 操作 符 重 载 功能 ， 我 们 可 以 让 类 的 实例 表现 得 像 函 数 。 它 的 原理 是 重 载 
operator () 方 法 ， 让 调用 类 的 处 理 方法 就 像 调 用 纯粹 的 函数 一 样 。 这 种 类 的 实例 被 称 为 函数 对 
象 或 者 仿 函 数 (functor )。 一 个 仿 也 数 通常 包含 一 个 完整 的 构造 函数 ， 因 此 能 够 在 创建 后 立即 使 
用 。 例 如 ， 可 以 在 colorpetector 类 中 添加 完整 的 构造 函数 : 

// 完整 的 构造 函数 


ColorDetector(uchar blue, uchar green, uchar red, int maxDist=100): 
maxDist (maxDist) { 
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// 目标 颜色 


setTargetColor (blue, green, red); 








很 显然 ， 前 面 定 义 的 获取 方法 和 设置 方法 仍然 可 以 使 用 。 可 以 这 样 定义 仿 函 数 方法 : 


Cv::Mat operator() (const cv::Mat &image) { 
// 这 里 放 检 测 颜 色 的 代码 
} 


若 想 用 仿 函 数 方法 检测 指定 的 颜色 ， 只 需要 用 这 样 的 代码 片段 : 


ColorDetector colordetector(230,190,130， // 颜色 
LOO // 阅 值 
cv::Mat result= colordetector (image); // 调用 仿 涵 数 


可 以 看 到 ， 这 里 对 颜色 检测 方法 的 调用 类 似 于 对 某 个 函数 的 调用 。 

5. OpenCyV 的 算法 基 类 

为 实现 计算 机 视觉 的 各 项 功能 ，OpenCV 提供 了 很 多 算法 。 为 方便 使 用 ， 大 多 数 算法 都 被 封 
装 成 了 通用 基 类 cv: :Algorithm 的 子 类 。 这 体现 了 策略 设计 模式 的 一 些 概念 。 首 先 ， 所 有 算法 
都 在 专门 的 静态 方法 中 动态 地 创建 ,以 确保 创建 的 算法 总 是 有 效 的 ( 即 每 个 缺少 的 参数 都 有 有 效 
的 默认 值 )。 来 看 一 个 例子 ， 即 它 的 其 中 一 个 子 类 cv: :oRB (用 于 兴趣 点 运算 ,详情 请 参见 8.5 
节 )。 这 里 只 把 它 作 为 一 个 算法 示例 。 

用 下 面 的 方法 创建 一 个 算法 实例 : 

cv::PLr<cv::ORB> ptrORB = cvVv::ORB::create(); // 默认 状态 

算法 一 旦 创建 完毕 ， 就 可 以 开始 使 用 ， 例 如 通用 方法 read 和 write 可 用 于 装载 或 存储 算 
法 的 状态 值 。 算 法 也 有 一 些 专用 方法 (例如 ORB 的 方法 aetect 和 compute 用 于 触发 它 的 主体 
计算 单元 )， 也 有 专门 用 来 设置 内 部 参数 的 设置 方法 。 需 要 注意 的 是 ， 你 可 以 把 指针 类 型 定 为 
CV: :Ptr<cv::Algorithm>, 但 那样 就 无 法 使 用 它 的 专用 方法 了 。 






























































3.2.4 参阅 

口 A. Alexandrescu 提出 的 “基于 策略 的 类 设计 ”是 策略 设计 模式 的 一 个 变种 ， 它 把 
选择 放 在 编译 时 进行 。 

口 3.4 节 将 介绍 感知 均匀 色彩 空间 的 概念 ， 以 实现 更 直观 的 颜色 比较 方法 

















算法 的 








3.3 用 GrabCut 算法 分 割 图 像 


上 一 节 介 绍 了 如 何 利用 颜色 信息 , 根据 场景 中 的 特定 元 素 分 割 图 像 。 物体 通常 有 自己 特有 的 
颜色 ,通过 识别 颜色 接近 的 区 域 , 通常 可 以 提取 出 这 些 颜 色 。OpenCV 提供 了 一 种 常用 的 图 像 分 
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割 算法 ， 即 GrabCut 算 法 。GrabCut 算 法 比较 复杂 ,计算 量 也 很 大 , 但 结果 通常 很 精确 。 如 果 要 
从 静态 图 像 中 提取 前 景物 体 (例如 从 图 像 中 剪 切 一 个 物体 ， 并 粘贴 到 另 一 幅 图 像 )， 最 好 采用 
GrabCnut 算法 。 





3.3.1 如何 实 现 
cv: :grabcut 函数 的 用 法 非常 简单 ， 只 需要 输入 一 幅 图 像 ， 并 对 一 些 像素 做 上 “属于 背景 ” 
或 “属于 前 景 ”的 标记 即 可 。 根 据 这 个 局 部 标记 ， 算 法 将 计算 出 整 幅 图 像 的 前 景 /背景 分 割 线 。 
一 种 指定 输入 图 像 局 部 前 景 /背景 标签 的 方法 是 定义 一 个 包含 前 景物 体 的 矩形 : 
// 定义 一 个 带 边框 的 矩形 


// 矩形 外 部 的 像素 会 被 标记 为 背景 
cvisRect rectangle(5,70,260,120); 


这 上段 代码 定义 了 图 像 中 的 一 个 区 域 。 











困 卫 Image with rectangle ey 口 xX 











和 矩形 之 外 的 像素 都 会 被 标记 为 背景 。 调 用 cv: :grabcut 时 , 除了 需要 输入 图 像 和 分 割 后 的 
图 像 ， 还 需要 定义 两 个 矩阵 ， 用 于 存放 算法 构建 的 模型 ， 代 码 如 下 所 示 : 











cv::Mat result; // 分 割 结 果 (四 种 可 能 的 值 ) 
cv::Mat bgModel,fgModel; // 模型 (内 部 使 用 ) 
// GrabCut 分 割 算法 
cv: :grabCut (image， // 输入 图 像 
result, // 分 割 结果 
rectangle, // 包含 前 景 的 和 矩形 
bgModel, fgModel, // 模型 
Sy // 迭代 次 数 


CV: :GC_INIT_WITH_RECT); // 使 用 和 珑 形 
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注意 ， 我 们 在 函数 的 中 用 cv: :ccC_INIT_WITH_RECT 标志 作为 最 后 一 个 参数 ， 表 示 将 使 用 
带 边框 的 矩形 模型 ( 3.3.2 节 会 讨论 其 他 模式 )。 输 入 /输出 的 分 制图 像 可 以 是 以 下 四 个 值 之 一 。 


D cv: :GC_BGD: 这 个 值 表示 明确 属于 背景 的 像素 (例如 本 例 中 算 形 之 外 的 像素 ) 。 

D cv: :GC_FGD: 这 个 值 表示 明确 属于 前 景 的 像素 ( 本 例 中 没有 这 种 像素 ) 。 

口 cv: :GC_PR_BGD: 这 个 值 表示 可 能 属于 背景 的 像素 。 

口 cv: :GC_PR_FGD: 这 个 值 表示 可 能 属于 前 景 的 像素 ( 即 本 例 中 和 矩形 之 内 像素 的 初始 值 ) 。 


通过 提取 值 为 cv: :GC_PR_FGD 的 像素 ， 可 得 到 包含 分 割 信息 的 二 值 图 像 ， 实 现代 码 为 : 


// 取得 标记 为 “可 能 属于 前 景 ”的 像素 

cV: :compare (result,cv::GC_PR_FGD, result,cv::CMP_ EQ); 

// 生成 输出 图 像 

cv::Mat foreground (image.size(),CV_8UC3,cv::Scalar(255,255,255)); 
image.copyTo (foreground，result); // 不 复制 背景 像素 


要 提取 全 部 前 景 像素 ， 即 值 为 cv: :GC_PR_FGD 或 cv: :GC_FGD 的 像素 ,可 以 检查 第 一 位 
的 值 ， 代 码 如 下 所 示 : 
// 用 “ 按 位 与 ”运算 检查 第 一 位 
result= result&1; // 如 果 是 前 景 像素 ， 结 果 为 1 
这 可 能 是 因为 这 几 个 常量 被 定义 的 值 为 1 和 3 ,而 另外 两 个 ( cv: :GC_BcD 和 cv: :GC_PR_BGCD) 
电 被 定义 为 0 和 2。 本 例 因为 分 制图 像 不 含 cv: :Gc_FcD 像素 (只 输入 了 cv: :Gc_BGD 像素 )， 所 
以 得 到 的 结果 是 一 样 的 。 


得 到 的 图 像 如 下 所 示 。 
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恩 卫 Foreground object 一 口 xX 
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3.3.2 ”实现 原理 


在 前 面 的 例子 中 ， 只 需要 指定 一 个 包含 前 景物 体 ( 城堡 ) 的 矩形 ，GrabCut 算 法 就 能 提取 出 
它 。 此 外 ， 还 可 以 把 输入 图 像 中 的 几 个 特定 像素 赋值 为 cv: :GC_BGD 和 cv: :GC_FGD， 以 扼 码 
图 像 的 形式 提供 这 些 值 ， 作 为 cv: :grabcut 函数 的 第 二 个 参数 。 同 时 要 把 输入 模式 标志 指定 为 
GC_INIT_WITH_MASK。 获 得 这 些 输入 标签 的 方法 有 很 多 种 ， 例 如 可 以 提示 用 户 在 图 像 中 交互 式 
地 标记 一 些 元 素 。 当 然 ， 将 这 两 种 输入 模式 结合 使 用 也 未 尝 不 可 。 


利用 输入 信息 ，GrabCut 算 法 通过 以 下 步骤 进行 背景 /前 景 分 割 。 首 先 ， 把 所 有 未 标记 的 像素 
临时 标 为 前 景 (cv: :GC_PR_FGD )。 基 于 当前 的 分 类 情况 , 算法 把 像素 划分 为 多 个 颜色 相似 的 组 
( 即 & 个 背景 组 和 & 个 前 景 组 )。 下 一 步 是 通过 引入 前 景 和 背景 像素 之 间 的 边缘 ,确定 背景 /前 景 
的 分 割 ， 这 将 通过 一 个 优化 过 程 来 实现 。 在 此 过 程 中 , 将 试图 连接 具有 相似 标记 的 像素 ,并 且 避 
免 边 缘 出 现在 强度 相对 均匀 的 区 域 。 使 用 Graph Cuts 算法 可 以 高 效 地 解决 这 个 优化 问题 ， 它 寻找 
最 优 解决 方案 的 方法 是 : 把 问题 表示 成 一 幅 连 通 的 图 形 , 然后 在 图 形 上 进行 切割 ,以 形成 最 优 的 
形态 。 分 割 完成 后 ,像素 会 有 新 的 标记 。 然 后 重复 这 个 分 组 过 程 ， 找 到 新 的 最 优 分 割 方案 ,如 此 
反复 。 因 此 ，GrabCut 算 法 是 一 个 逐步 改进 分 割 结果 的 迭代 过 程 。 根 据 场景 的 复杂 程度 ， 找 到 最 
佳 方案 所 需 的 迭代 次 数 各 不 相同 ( 如 果 情 况 简 单 ， 和 迭代 一 次 就 足够 了 )。 

这 解释 了 函数 中 用 来 表示 迭代 次 数 的 参数 。 结 合 代码 看 , 原意 应 该 是 : 先 把 参数 传递 给 函数 ， 
函数 返回 时 会 修改 参数 的 值 。 因 此 ,如 果 和 希望 通过 执行 额外 的 迭代 过 程 来 改进 分 割 结果 , 可 以 在 
调用 函数 时 重复 使 用 上 次 运行 的 模型 。 

















































































































3.3.3 参阅 


口 C. Rother、V. Kolmogorov 和 A. Blake 发 表 在 4CM Transactions on Graphics (SIGGRAPH) 
2004 年 8 月 第 23 卷 第 3 期 上 的 文章 “GrabCut: Interactive Foreground Extraction using 
Iterated Graph Cuts” 详 细 描 述 了 GrabCut 算 法 。 

口 5.5 节 将 介绍 另 一 种 图 像 分 割 算法 。 





3.4 ”转换 颜色 表示 法 


RGB 色彩 空间 的 基础 是 对 加 色 法 三 原色 ( 红 、 绿 、 蓝 ) 的 应 用 。 本 章 最 开始 就 说 过 ， 选 用 
这 三 种 颜色 作为 三 原色 , 是 因为 将 它们 组 合 后 可 以 产生 色 域 很 宽 的 各 种 颜色 , 与 人 类 视觉 系统 对 
应 ,这 通常 是 数字 成 像 中 默认 的 色彩 空间 , 因为 这 就 是 用 红 绿 蓝 三 种 滤波 器 生成 彩色 图 像 的 方式 。 
红 绿 蓝 三 个 通道 还 要 做 归 一 化 处 理 , 当 三 种 颜色 强度 相同 时 就 会 取得 灰 度 , 即 从 黑色 (0, 0, 0) 到 白 
色 (255, 255, 255)。 


但 利用 RGB 色彩 空间 计算 颜色 之 间 的 差距 并 不 是 衡量 两 个 颜色 相似 度 的 最 好 方式 。 实际 上 ， 
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RGB 并 不 是 感知 均匀 的 色彩 空间 。 也 就 是 说 ， 两 种 具有 一 定 差距 的 颜色 可 能 看 起 来 非常 接近 ， 
而 另外 两 种 具有 同样 差距 的 颜色 看 起 来 却 差别 很 大 。 


为 解决 这 个 问题 ,引入 了 一 些 具有 感知 均匀 特性 的 颜色 表示 法 。CIE L*a*b* 就 是 一 种 这 样 的 
颜色 模型 。 把 图 像 转换 到 这 种 表示 法 后 , 我 们 就 可 以 真正 地 使 用 图 像 像素 与 目标 颜色 之 间 的 欧 几 
里 得 距离 ,来 度量 颜色 之 间 的 视觉 相似 度 。 本 节 将 介绍 如 何 转换 颜色 表示 法 ,以便 使 用 其 他 色彩 


空间 。 
































3.4.1 如何 实现 


使 用 OpenCYV 的 函数 cv: :cvtcolor 可 以 轻松 转换 图 像 的 色彩 空间 ,回顾 一 下 3.2 节 提 到 的 
ColorDetector 类 。 在 process 方法 中 先 把 输入 图 像 转换 成 CIE L*a*b* 色 彩 空间 : 





cv::Mat ColorDetector::process (const cv::Mat &image) { 


// 必要 时 重新 分 配 二 值 图 像 
// 与 输入 图 像 的 尺寸 相同 ， 但 用 单 通道 


result.create(image.rows,image.cols,CV_8U); 





// 转换 成 Lab 色彩 空间 


Cv::CvtColor (image, converted, CV_BGR2Lab); 


// 取得 转换 图 像 的 迭代 器 
Cv::Mat_<cVv::Vec3b>::iterator it= converted.begin<cv::Vec3b>(); 
Cv::Mat_<cVv::Vec3b>::iterator itend= converted.end<cv::Vec3b>(); 
// 取得 输出 图 像 的 迭代 器 


Cv::Mat_<uchar>::iterator itout= result.begin<uchar>(); 


// 针对 每 个 像素 


for ( ; it!= itend; ++it, ++itout) { 


转换 后 的 变量 包含 颜色 转换 后 的 图 像 ， 被 定义 为 类 ColorDetector 的 一 个 属性 : 








class ColorDetector { 
private: 
// 颜色 转换 后 的 图 像 


cv::Mat converted; 
输入 的 目标 颜色 也 需要 进行 转换 一 一 通过 创建 一 个 只 有 单个 像素 的 临时 图 像 , 可 以 实现 这 种 
转换 。 注意 , 需要 让 函数 保持 与 前 面 几 节 一 样 的 签名 ， 即 用 户 提供 的 目标 颜色 仍然 是 RGB 格式 : 
// 设置 需要 检测 的 颜色 


void setTargetColor (unsigned char red, unsigned char green, 
unsigned char blue) { 


























// 临时 的 单 像素 图 像 
cv::Mat tmp(1,1,cCV_8UC3); 
tmp.at<cv: :Vec3b>(0,0)= cv::Vec3b(blue, green, red); 
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// 将 目标 颜色 转换 成 Lab 色彩 空间 
CVv::CvtColor(tmp, tmp, CV_BGR2Lab); 


target= tmp.at<cv: :Vec3b>(0,0); 


如 果 在 上 一 节 的 程序 中 使 用 这 个 修改 过 的 类 ， 它 就 会 在 检测 符合 目标 颜色 的 像素 时 ， 使 用 
CIE L#as#b* 颜 色 模 型 。 








3.4.2 ”实现 原理 


在 将 图 像 从 一 个 色彩 空间 转换 到 另 一 个 色彩 空间 时 , 会 在 每 个 输入 像素 上 做 一 个 线性 或 非 线 
性 的 转换 ， 以 得 到 输出 像素 。 输 出 图 像 的 像素 类 型 与 输入 网 像 是 一 致 的 。 即 使 你 经 常 使 用 8 位 像 
素 ， 也 可 以 用 浮 点 数 图 像 (通常 假定 像素 值 的 范围 是 0~1.0 ) 或 整数 图 像 ( 像素 值 范围 通常 是 
0~65 535 ) 进行 颜色 转换 。 但 是 ， 实 际 的 像素 值 范 于 取决 于 指定 的 色彩 空间 和 目标 网 像 的 类 型 。 
比如 说 CIE L*a*b* 色 彩 空间 中 的 工 通 道 表 示 每 个 像素 的 亮度 , 范围 是 0~100; 在 使 用 8 位 图 像 时 ， 
它 的 范围 就 会 调整 为 0~255。a 通道 和 通道 表示 色 度 组 件 ， 这 些 通道 包含 了 像素 的 颜色 信息 ， 
与 亮度 无 关 。 它们 的 值 的 范围 是 -127~127; 对 于 8 位 图 像 ， 为 了 适应 0~255 的 区 间 ， 每 个 值 会 加 
上 128。 但 是 要 注意 ， 进 行 8 位 颜色 转换 时 会 产生 舍 人 误差 ， 因 此 转换 过 程 并 不 是 完全 可 逆 的 。 


大 多 数 常用 的 色彩 空间 都 是 可 以 转换 的 。 你 只 需要 在 OpenCV 函数 中 指定 正确 的 色彩 空间 转 
换代 码 (CIE L*a*b* 的 代码 为 cV_BGR2Lab )， 其 中 就 有 YCrCb， 它 是 在 JPEG 压缩 中 使 用 的 色 
彩 空 间 。 把 色彩 空间 从 BGR 转换 成 YCrCb 的 代码 为 cv_BGR2Ycrcb。 注 意 , 所 有 涉及 三 原色 ( 红 、 
绿 、 蓝 ) 的 转换 过 程 都 可 以 用 RGB 和 BGR 的 次 序 。 


CIE L*u*y* 是 男 一 种 感知 均匀 的 色彩 空间 。 若 想 从 BGR 转换 成 CIE L*u*v*， 可 使 用 代码 
CV_BGR2Luv。o L*a*b* 和 L*u*v* 对 亮度 通道 使 用 同样 的 转换 公式 , 但 对 色 度 通道 则 使 用 不 同 的 表 
示 法 。 男 外 ， 为 了 实现 视觉 感知 上 的 均匀 ， 这 两 种 色彩 空间 都 扭曲 了 RGB 的 颜色 范围 ， 所 以 这 
些 转 换 过 程 都 是 非 线性 的 ( 因此 计算 量 巨大 )。 


此 外 还 有 CIE XYZ 色彩 空间 ( 用 代码 cv_BGR2XYz 表示 )。 它 是 一 种 标准 色彩 空间 , 用 与 设 
备 无 关 的 方式 表示 任何 可 见 颜 色 。 在 L*a*b* 和 L*u*v* 色 彩 空间 的 计算 中 ， 用 XYZ 色彩 空间 作 
为 一 种 中 间 表 示 法 。RGB 与 XYZ 之 间 的 转换 是 线性 的 。 还 有 一 点 非常 有 趣 ， 就 是 了 通道 对 应 着 
图 像 的 灰 度 版 本 。 


HSV 和 HLS 这 两 种 色彩 空间 很 有 意思 ， 它 们 把 颜色 分 解 成 加 值 的 色调 和 饱和 度 组 件 或 亮度 
组 件 。 人 们 用 这 种 方式 来 描述 的 颜色 会 更 加 自然 。 下 一 节 将 介绍 这 种 色彩 空间 。 


你 可 以 把 彩色 图 像 转换 成 灰 度 图 像 ， 输 出 是 一 个 单 通道 图 像 : 


cV::CcCVtColor (Color，gray，CV_BGR2Gray) : 
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也 可 以 进行 反 向 的 转换 , 但 是 那样 得 到 的 彩色 图 像 的 三 个 通道 是 相同 的 , 都 是 灰 度 图 像 中 对 
应 的 值 。 


3.4.3 ”参阅 


口 4.6 节 将 使 用 HSV 色彩 空间 来 寻找 图 像 中 的 目标 。 

口 关于 色彩 空间 理论 的 参考 资料 有 很 多 ， 其 中 有 一 套 完整 的 资料 :The Structure and Properties 
of Color Spaces and the Representation of Color Images ( E. Dubois 车 ，Morgan & Claypool, 
2009 年 出 版 ) 。 








3.5 用 色调 、 饱 和 度 和 亮度 表示 颜色 


本 章 处 理 了 图 像 的 颜色 , 使 用 了 不 同 的 色彩 空间 , 并 且 设 法 识别 出 图 像 中 具有 均匀 颜色 的 区 
域 。RGB 是 一 种 被 广泛 接受 的 色彩 空间 。 虽 然 它 被 视 为 一 种 在 电子 成 像 系 统 中 采集 和 显示 颜色 
的 有 效 方法 ,但 它 其 实 并 不 直观 ， 也 并 不 符合 人 类 对 于 颜色 的 感知 方式 一 一 我 们 更 习惯 用 色彩 、 
亮度 或 彩 度 ( 即 表示 该 颜色 是 鲜艳 的 还 是 柔和 的 ) 来 描述 颜色 。 为 了 能 让 用 户 用 更 直观 的 属性 描 
述 颜 色 , 我 们 引入 了 基于 色调 、 饱 和 度 和 亮度 的 色彩 空间 。 本 节 将 把 色调 、 饱 和 度 和 亮度 作为 描 
述 颜 色 的 方法 ， 并 对 这 些 概念 加 以 探讨 。 















































3.5.1 如 何 实现 


上 一 节 讲 过 , 可 用 cv: :cvtcolor 函数 把 BGR 图 像 转 换 成 男 一 种 色彩 空间 。 这 里 使 用 转换 
代码 cV_BGR2HSV: 





// 转换 成 HSV 色彩 空间 
cv::Mat hsyv; 
CVv::CvtColor(image, hsv, CV_BGR2HSV); 


我 们 可 以 用 代码 cv_HsV2BGR 把 图 像 转换 回 BGR 色彩 空间 。 通 过 把 图 像 的 通道 分 割 到 三 个 
独立 的 图 像 中 ， 我 们 可 以 直观 地 看 到 每 一 种 HSV 组 件 ， 方 法 如 下 所 示 : 

// 把 3 个 通道 分 割 进 3 幅 图 像 中 

std: :Vector<CcV: :Mat> channels; 

cv::split (hsv,channels); 

// channels[0] 是 色调 


// channels[1] 是 饱和 度 
// channels[2] 是 亮度 


注意 第 三 个 通道 表示 颜色 值 ， 即 颜色 亮度 的 近似 值 。 因 为 处 理 的 是 8 位 图 像 ， 所 以 OpenCV 
会 把 通道 值 的 范围 重新 调节 为 0~255 (色调 除外 ， 它 的 范围 被 调节 为 0~180， 下 节 会 解释 原因 )。 
这 个 方法 非常 实用 ， 因 为 我 们 可 以 把 这 几 个 通道 作为 灰 度 图 像 进行 显示 。 
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城堡 图 的 亮度 通道 显示 如 下 。 








团 Value 人 口 xX 























该 图 像 的 饱和 度 通 道 显 示 如 下 。 








团 Saturation a 口 六 








最 后 是 该 图 像 的 色调 通道 。 
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由 对 Hue 一 口 X 





下 一 节 会 对 这 几 幅 图 像 进 行 解释 。 


3.5.2 ”实现 原理 


之 所 以 要 引入 色调 /饱和 度 /亮度 的 色彩 空间 概念 ， 是 因为 人 们 喜欢 凭 直觉 分 辨 各 种 颜色 ， 而 
它 与 这 种 方式 吻合 。 实 际 上 ， 人 类 更 喜欢 用 色彩 、 彩 度 、 亮 度 等 直观 的 属性 来 描述 颜色 ， 而 大 多 
数 直觉 色彩 空间 正 是 基于 这 三 个 属性 。 色 调 (hue ) 表示 主 色 ,我 们 使 用 的 颜色 名 称 ( 例如 绿色 、 
黄色 和 红色 ) 就 对 应 了 不 同 的 色调 值 ; 饱和 度 ( saturation ) 表示 颜色 的 鲜艳 程度 , 柔和 的 颜色 饱 
和 度 较 低 ， 而 彩虹 的 颜色 饱和 度 就 很 高 ; 最 后 ,亮度 (brightness ) 是 一 个 主观 的 属性 ， 表 示 某 种 
颜色 的 光亮 程度 。 其 他 直觉 色彩 空间 使 用 颜色 明度 ( value ) 或 颜色 亮度 (lightness ) 的 概念 描述 
有 关 颜 色 的 强度 。 


利用 这 些 颜色 概念 ， 能 尽 可 能 地 模拟 人 类 对 颜色 的 直观 感知 。 因 此 ， 它 们 没有 标准 的 定义 。 
根据 文献 资料 ， 色调、 饱和 度 和 亮度 都 有 多 种 不 同 的 定义 和 计算 公式 。OpenCYV 建议 的 两 种 直觉 
色彩 空间 的 实现 是 HSV 和 HLS 色彩 空间 ， 它 们 的 转换 公式 略 有 不 同 ， 但 是 结果 非常 相似 。 

亮度 成 分 可 能 是 最 容易 解释 的 。 在 OpenCV 对 HSV 的 实现 中 , 它 被 定义 为 三 个 BGR 成 分 中 
的 最 大 值 ， 以 非常 简化 的 方式 实现 了 亮度 的 概念 。 为 了 让 定义 更 符合 人 类 视觉 系统 ,应 该 使 用 均 
匀 感 知 的 色彩 空间 L*a*b* 和 L*u*v* 的 工 通 道 。 举 个 例子 ，L 通道 已 经 考虑 到 了 ， 在 强度 相同 的 
情况 下 ， 人 们 会 党 得 绿色 比 蓝 色 等 颜色 的 亮度 更 高 。 

OpenCV 用 一 个 公式 来 计算 饱和 度 ， 该 公式 基于 BGR 组 件 的 最 小 值 和 最 大 值 : 


Se max(R,G,B)—min(R,G, B) 
max(R,G, B) 
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其 原理 是 : 灰 度 颜色 包含 的 R、G、B 的 成 分 是 相等 的 ， 

















相当 于 一 种 极 不 饱和 的 颜色 ， 因 此 


它 的 饱和 度 是 0 ( 饱和 度 是 一 个 0~1.0 的 值 )。 对 于 8 位 图 像 ， 饱 和 度 被 调节 成 一 个 0~255 的 值 ， 
并 且 作 为 灰 度 图 像 显 示 的 时 候 ， 较 亮 区 域 对 应 的 颜色 具有 较 高 的 饱和 度 。 


举 个 例子 ,在 前 面 的 饱和 度 图 片 中 , 水 的 蓝 色 比 天 空 的 柔和 浅 蓝 色 的 饱和 度 高 ,这 和 我 们 的 
推断 是 一 致 的 。 根据 定义 , 各 种 灰色 阴影 的 饱和 度 都 是 0( 因为 它们 的 三 种 BGR 组 件 是 相等 的 )。 
从 城堡 的 屋顶 能 看 到 这 种 现象 ,因为 屋顶 是 由 深 灰 色 石 涉 砌 成 的 。 最 后 ,你 还 会 在 饱和 度 图 像 中 
看 到 一 些 白色 的 斑点 , 它们 对 应 着 原始 图 像 中 非常 瞳 的 区 域 。 这 是 由 饱和 度 的 定义 引起 的 一 一 饱 














和 度 只 计算 BGR 中 最 大 值 和 最 小 值 的 相对 差距 , 因此 像 (1,0 





























,0) 这 样 的 组 合 就 会 得 到 饱和 度 1.0， 





尽管 这 个 颜色 看 起 来 是 黑 的 。 因 此 , 在 黑色 区 域 中 计算 得 到 的 饱和 度 是 不 可 靠 的 , 没有 参考 价值 。 





颜色 的 色调 通常 用 0~360 的 角度 来 表示 ， 其 中 红色 是 0 度 。 对 于 8 位 图 像 ，OpenCV 把 角度 
除 以 2， 以 适合 单字 节 的 存储 范围 。 因 此 ， 每 个 色调 值 对 应 指定 颜色 的 色彩 ， 与 亮度 和 人 饱和 度 无 
关 。 例 如 天 空 和 水 的 色调 是 一 样 的， 都 约 为 200 度 (强度 100 )， 对 应 色 度 为 蓝 色 ; 背景 树林 的 
色调 约 为 90 度 ， 对 应 色 度 为 绿色 。 有 一 点 要 特别 注意 ， 如 果 颜 色 的 饱和 度 很 低 ， 它 计算 出 来 的 














色调 就 不 可 靠 。 





HSB 色彩 空间 通常 用 一 个 圆锥 体 来 表示 , 圆锥 体内 部 的 每 个 点 代表 一 种 特定 的 颜色 , 角度 位 





置 表示 颜色 的 色调 ， 到 中 轴线 的 距离 表示 饱和 度 ， 高 度 表 示 亮 度 。 圆 锥 体 的 顶点 表示 黑色 ， 它 的 





色调 和 饱和 度 是 没有 意义 的 。 


B 


我 们 还 可 以 人 为 生成 一 幅 图 像 ， 用 来 说 明 各 种 色调 /饱和 度 组 合 。 


cv::Mat hs(128, 360, CV_8UC3); 
for (int h = 0; h < 360; h++) { 
for (int s = 0; s < 128; s++) { 


hs .at<cv::Vec3b>(s，h) [0] = h/2; // 所 有 色调 角度 


// 饱和 度 从 高 到 低 
Neu ateov VecdDSt(te, .Dh) EL :235-2 
hs .at<cv::Vec3b>(s，h) [2] = 255; // 常数 
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下 图 从 左 到 右 表示 不 同 的 色调 (0~180 )， 从 上 到 下 表示 不 同 的 饱和 度 。 图 像 项 端 为 他 和 度 最 
高 的 颜色 ， 底 部 为 亿 和 度 最 低 的 颜色 。 图 中 所 有 颜色 的 亮度 都 为 255。 





图 半 Hue/Saturation 

















使 用 HSV 的 值 可 以 生成 一 些 非 常 有 趣 的 效果 。 一 些 用 照片 编辑 软件 生成 的 色彩 特效 就 是 用 
这 个 色彩 空间 实现 的 。 你 可 以 修改 一 幅 图 像 ， 把 它 的 所 有 像素 都 设置 为 一 个 固定 的 亮度 , 但 不 改 
变色 调和 饱和 度 。 可 以 这 样 实现 : 


// 转换 成 HSV 色彩 空间 

cv::Mat hsv; 

Cv::CvtColor (image, hsv, CV_BGR2HSV); 
// 将 3 个 通道 分 割 到 3 幅 图 像 中 

std: :vector<cv::Mat> channels; 
cv::split (hsv,channels); 

// 所 有 像素 的 颜色 亮度 通道 将 变 成 255 
channels[2]= 255; 

// 重新 合并 通道 

cv::merge (channels,hsv); 

// 转换 回 BGR 

cv::Mat newImage; 

CVv::CvtColor (hsv,newImage,CV_HSV2BGR); 


得 到 的 结果 如 下 图 所 示 ， 看 起 来 像 是 一 幅 绘 画作 品 。 





轿 a Fixed Value Image 人 口 xX 
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3.5.3 ”拓展 阅读 
在 搜寻 特定 颜色 的 物体 时 ，HSV 色彩 空间 也 是 非常 实用 的 。 
颜色 用 于 检测 : 肤色 检测 


在 对 特定 物体 做 初步 检测 时 ,颜色 信息 非常 有 用 。 例如 辅助 驾驶 程序 中 的 路 标 检 测 功能 ,就 
要 凭借 标准 路 标的 颜色 快速 识别 可 能 是 路 标的 信息 。 另 一 个 例子 是 肤色 检测 , 检测 到 的 皮肤 区 域 
可 作为 图 像 中 有 人 存在 的 标志 。 手 势 识别 就 经 常 使 用 肤色 检测 确定 手 的 位 置 。 


通常 来 说 , 为 了 用 颜色 来 检测 目标 ,首先 需要 收集 一 个 存储 有 大 量 图 像样 本 的 数据 库 , 每 个 
样本 包含 从 不 同 观 察 条 件 下 捕捉 到 的 目标 , 作为 定义 分 类 器 的 参数 。 你 还 需要 选择 一 种 用 于 分 类 
的 颜色 表示 法 。 肤 色 检 测 领域 的 大 量 研究 已 经 表明 , 来 自 不 同人 种 的 人 群 的 皮肤 颜色 ,可 以 在 色 
调 -饱和 度 色 彩 空间 中 很 好 地 归 类 。 因 此 ， 在 后 面 的 图 像 中 ,我 们 将 只 使 用 色调 和 饱和 度 值 来 识 
别 肤 色 。 

































































我 们 定义 了 一 个 基于 数值 区 间 ( 最 小 和 最 大 色调 、 最 小 和 最 大 饱和 度 ) 的 函数 ,把 图 像 中 的 
像素 分 为 皮肤 和 非 皮肤 两 类 : 


void detectHScolor (const cv::Mat& image, // 输入 图 像 














double minHue, double maxHue, // 色调 区 间 
double minSat, double maxSat, // 饱和 度 区 间 
cv::Mat& mask) { // 输出 掩 码 


// 转换 到 HSV 空间 
cv::Mat hsv; 
Cv::CvtColor (image, hsv, CV_BGR2HSV); 


// 将 3 个 通道 分 割 到 3 幅 图 像 

std: :Vector<CcV: :Mat> channels; 
cv::split (hsv, channels); 

// channels[0] 是 色调 

// channels[1] 是 饱和 度 

// channels[2] 是 亮度 
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// 色调 掩 码 

cv::Mat mask1; // 小 于 maxHue 

cv::threshold(channels[0], maskl, maxHue, 255, 

cv: :THRESH_BINARY_INV) ; 

cv::Mat mask2; // 大 于 minHue 

cv::threshold(channels[0], mask2, minHue, 255, cv::THRESH_ BINARY); 


cv::Mat hueMask; // 色调 掩 码 

if (minHue < maxHue) 
hueMask = maskl & mask2; 

else // 如 果 区 间 穿 越 0 度 中 轴线 


hueMask = mask1 | mask2; 











// 饱和 度 掩 码 

// 从 minSat 到 maxSat 

cv::Mat satMask; // 饱和 度 掩 码 

cv::inRange (channels[1], minSat, maxSat, satMask); 


// 组 合 掩 码 
mask = hueMask & satMask; 


} 

如 果 在 处 理 时 有 了 大 量 的 皮肤 (以 及 非 皮肤 ) 样本 ,我们 就 可 以 使 用 概率 方法 售 算 在 皮肤 术 
本 中 和 非 皮肤 样本 中 发 现 指定 颜色 的 可 能 性 。 此 处 ， 我 们 依据 经 验 定义 了 一 个 合理 的 色调 /饱和 
度 区 间 ， 用 于 这 里 的 测试 图 像 〈 记 住 ，8 位 版 本 的 色调 在 0~180， 饱 和 度 在 0~255 ): 





























让 




















// 检测 肤色 

cv::Mat mask; 

detectHScolor (image, 160, 10, // 色调 为 320 度 ~20 度 
A // 饱和 度 为 ~0.1~0.65 
mask); 





// 显示 使 用 掩 码 后 的 图 像 
cv::Mat detected(image.size(), CV_8UC3, cv::Scalar(0, 0, 0)); 
image.copyTo (detected, mask); 


得 到 下 面 的 检测 图 像 。 

















国有 Detection result 义 
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注意 , 为 了 简化 , 我 们 在 检测 时 没有 考虑 颜色 的 亮度 。 在 实际 应 用 中 ， 排 除 较 高 亮度 的 颜色 
可 以 降低 把 明亮 的 淡 红 色 误 认为 皮肤 的 可 能 性 。 显 然 ， 要 想 对 皮肤 颜色 进行 可 靠 和 准确 的 检测 ， 
还 需要 更 加 精确 的 分 析 。 对 不 同 的 图 像 进行 检测 ， 也 很 难保 证 效果 都 好 ， 因 为 摄影 时 影响 彩色 再 
现 的 因素 有 很 多 ， 如 白 平衡 和 光照 条 件 等 。 尽 管 如 此 ， 用 这 种 只 使 用 色调 /饱和 度 信 息 做 初步 检 
测 的 方法 也 能 得 到 一 个 比较 令 人 满意 的 结果 。 





























3.5.4 ”参阅 


口 第 5 章 将 介绍 如 何 对 检测 得 到 的 二 值 图 形 进行 后 期 处 理 。 

口 P Kakumanu、S. Makrogiannis 和 N. Bourbakis 发 表 在 Pattern Recognition 2007 年 第 40 卷 
上 的 文章 “A survey of skin-color modeling and detection methods” 介 绍 了 另 一 种 肤色 检测 
方法 。 











第 4 章 


用 直方 图 统计 像素 








本 章 包 括 以 下 内 容 : 


口 计算 图 像 直 方 图 ; 

口 利用 查找 表 修 改 图 像 外 观 ; 

口 直方 图 均衡 化 ; 

口 反 向 投影 直方 图 检测 特定 图 像 内 容 ; 
口 用 均值 平移 算法 查找 目标 ; 

口 比较 直方 图 搜索 相似 图 像 ; 

口 用 积分 图 像 统计 像素 。 
































图 像 是 由 不 同 数值 (颜色 ) 的 像素 构成 的 , 像素 值 在 整 幅 图 像 中 的 分 布 情况 是 该 图 像 的 一 个 
重要 属性 。 本 章 将 介绍 图 像 直 方 图 的 概念 ,你 将 学 会 如 何 计算 直方 图 、 如 何 用 直方 图 修改 图 像 的 
外 观 , 还 可 以 用 直方 图 来 标识 图 像 的 内 容 , 检测 图 像 中 特定 的 物体 或 纹理 。 本 章 将 讲解 其 中 的 部 
分 技术 。 




















4.2 ”计算 图 像 直 方 图 


图 像 由 各 种 数值 的 像素 构成 。 例 如 在 单 通道 灰 度 图 像 中 ， 每 个 像素 都 有 一 个 0 ( 黑色 ) ~255 
(白色 ) 的 整数 。 对 于 每 个 灰 度 ， 都 有 不 同 数 量 的 像素 分 布 在 图 像 内 ,具体 取决 于 图 片 内 容 。 


直方 图 是 一 个 简单 的 表格 ， 表 示 一 幅 图 像 ( 有 时 是 一 组 图 像 ) 中 具有 某 个 值 的 像素 的 数量 。 
因此 ， 灰 度 图 像 的 直方 图 有 256 个 项 目 ， 也 叫 箱子 (bin )。0 号 箱子 提供 值 为 0 的 像素 的 数量 ， 
1 号 箱子 提供 值 为 1 的 像素 的 数量 ， 以 此 类 推 。 很 明显 ， 如 果 把 直方 图 的 所 有 箱子 进行 累加 ， 得 
到 的 结果 就 是 像素 的 总 数 。 你 也 可 以 把 直方 图 归 一 化 ， 即 所 有 箱子 的 累加 和 等 于 1。 这 时 ， 每 个 
箱子 的 数值 表示 对 应 的 像素 数量 占 总 数 的 百分比 。 
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4.2.1 准备 工作 
本 章 的 前 4 节 会 用 到 这 幅 图 像 。 





4.2.2 ”如 何 实现 


要 在 OpenCV 中 计算 直方 图 ， 可 简单 地 调用 cv: :calcHist 国 数 。 这 是 一 个 通用 的 直方 图 
计算 函数 ,可 处 理 包 含 任何 值 类 型 和 范围 的 多 通道 图 像 。 为 了 简化 ,这 里 指定 一 个 专门 用 于 人 处理 
单 通道 灰 度 图 像 的 类 。cv: :calcHist 函数 非常 灵活 , 在 处 理 其 他 类 型 的 图 像 时 都 可 以 直接 使 用 
它 。 下 一 节 会 解释 它 的 每 个 参数 。 


这 个 专用 类 的 初始 化 代码 为 : 
// 创建 友 度 图 像 的 直方 图 


class Histogram1D { 





























private: 
int histSize[1]; // 直方 图 中 箱子 的 数量 
float hranges[2]; // 值 范围 
const float* ranges[1]; // 值 范围 的 指针 
int channels[1]; // 要 检查 的 通道 数量 
public: 


Histogram1D() { 


// 准备 一 维 直方 图 的 默认 参数 





histSize[0]= 256; // 256 个 箱子 
hranges[0]= 0.0; // 从 0 开始 ( 念 ) 
hranges[1]= 256.0; // 到 256 (不 含 ) 


ranges[0]= hranges; 
channels[0]= 0; // 先 关注 通道 0 
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定义 好 成 员 变 


// 计算 一 维 直方 图 


cv::Mat getHistogram(const cv::Mat &image) { 


量 后 ， 就 可 以 用 下 面 的 方法 计算 灰 度 直方 图 了 : 





cv::Mat hist; 


// 用 calcHist 函数 计算 一 维 直 方 图 
::calcHist (&image, 1, // 仅 为 一 幅 图 像 的 直方 图 


CV 


和 








channels, // 使 用 的 通道 
Cv Matty; // 不 使 用 掩 码 
hist, // 作为 结果 的 直方 | 





画 函 





ey // 这 是 一 维 的 直方 1 
histSize, // 箱子 数量 4 
ranges // 像素 值 的 范围 


return hist; 


} 


程序 只 需要 打开 一 幅 图 人像， 创建 一 个 Histogram1D 实例 ， 然 后 调用 getHistogram 方法 


即 可 : 


// 读 取 输 入 的 图 像 
cv::Mat image= cv::imread("group.jpg"，0); // 以 黑白 方式 打开 


// 直方 








图 对 象 


Histogram1D h; 


// 计算 直方 
cv::Mat histo= h.getHistogram(image); 


这 里 的 histo 对 象 是 一 个 一 维 数组 ， 包 含 256 个 项 目 。 因 此 只 需 遍 历 这 个 数组 ， 就 可 以 读 
取 每 个 箱子 : 

// 循环 遍历 每 个 箱子 

fer (int T=0s te2563 二 +} 


cout << 
<<histo.at<float>(i) << endl; 





Value 
Value 
Value 
Value 
Value 
Value 
Value 
Value 
Value 











7 
8 
9 
10 
了 
12 
13 
14 
15 


图 











WV DU 


使 用 本 章 开始 时 的 图 像 ， 部 分 显示 的 值 如 下 所 示 : 


L359 

208 

271 
288 
340 
418 
432 
472 
525 


显然 , 只 看 这 一 系列 数值 很 难得 到 任何 有 意义 的 信息 。 因 此 比较 实用 的 做 法 是 以 函数 的 方式 
显示 直方 图 ， 例 如 用 柱状 图 。 用 下 面 这 几 种 方法 可 创建 这 种 图 形 : 
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// 计算 一 维 直方 图 ， 并 返回 它 的 图 像 
cv::Mat getHistogramImage (const cv::Mat &image, int zoom=1) { 


// 先 计算 直方 图 
cv::Mat hist= getHistogram(image); 

// 创建 图 像 

return getIimageOfHistogram(hist, zoom); 


} 








// 创建 一 个 表示 直方 图 的 图 像 (静态 方法 ) 
static cv::Mat getImageOfHistogram (const cv::Mat &hist, int zoom) { 
// 取得 箱子 值 的 最 大 值 和 最 小 值 
double maxVal = 0; 
double minVval = 0; 
cv: :minMaxLoc (hist, &minVal, &maxVal, 0, 0); 








// 取得 直方 图 的 大 小 


int histSize = hist.rows; 





// 用 于 显示 直方 图 的 方形 图 像 
cv::Mat histImg (histSize*zoom, histSize*zoom, 
CV_8U, cv::Scalar (255)); 








// 设置 最 高 点 为 90% ( 即 图 像 高 度 ) 的 箱子 个 数 
int hpt = static cast<int>(0.9*histSize); 


// 为 每 个 箱子 画 重 直线 
for (int h = 0; h < histSize; h++) { 





float binVal = hist.at<float>(h); 
if (binVal>0) { 
int intensity = static cast<int>(binVal*hpt / maxVal); 
cv::line(histImg, cv::Point(h*zoom, histSize*zoom), 
cv::Point (h*zoom, (histSize - intensity)*zoom), 
cv::Scalar(0), zoom); 


return histImg; 


3 

使 用 getImageOfHistogram 方法 可 以 得 到 直方 图 图 像 。 它 用 线条 画 成 ， 以 柱状 图 形式 
展现 : 

// 以 图 像 形式 显示 直方 图 


cv: :namedWindow ("Histogram"); 
cv::imshow ("Histogram",h.getHistogramImage (image)); 


得 到 的 结果 如 下 图 所 示 。 
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从 上 面 图 形 化 的 直方 图 可 以 看 出 





恒 Histogram 








= 3] 














, 在 中 等 灰 度 值 处 有 一 个 大 的 尖峰 , 并 且 比 中 等 值 更 黑 的 像 




















素 有 很 多 。 巧 的 是 ,这 两 部 分 像素 分 别 对 应 了 图 像 的 背景 和 前 景 。 要 验证 这 点 ， 可 以 在 这 两 部 分 
的 汇合 处 进行 阔 值 化 处 理 。 OpenCyV 中 的 cv: :threshola 图 数 可 以 实现 这 个 功能 。 上 一 章 介绍 
过 , 它 是 一 个 很 实用 的 函数 。 我 们 取 直 方 图 中 在 升 高 为 尖峰 之 前 的 最 小 值 的 位 置 ( 灰 度 值 为 70 )， 

对 其 进行 浆 值 化 处 理 ， 得 到 二 值 图 像 : 





Cv: 
WE 


得 到 


IE 





:Mat thresholded; 
:threshold (image,thresholded,70, 


25.5r7 
Cv: :THRESH_BINARY) ; 














// 输出 二 值 图 像 


// 阅 值 





// 对 超过 阔 值 的 像素 赋值 
// 阅 值 化 类 型 


的 二 值 图 像 清晰 显示 出 背景 /前 景 的 分 割 情 况 。 





恩 习 Binary mage 
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4.2.3 ”实现 原理 
为 了 适应 各 种 场景 ，cv: :calcHist 函数 带 有 很 多 参数 ; 


void calcHist(const Matximages，// 源 图 像 











int nimages, // 源 图 像 的 个 数 (通常 为 1) 
const int*channels, // 列 出 通道 

InputArray mask, // 输入 掩 码 ( 需 处 理 的 像素 ) 
OutputArray hist, // 输出 直方 图 

int dims, // 直方 图 的 维度 (通道 数量 ) 
const int*histSize, // 每 个 维度 位 数 

const float**ranges, // 每 个 维度 的 范围 

bool uniform=true, // true 表示 箱子 间距 相同 


bool accumulate=false) // 是 否 在 多 次 调用 时 进行 累加 

大 多 数 情况 下 , 直方 图 是 单个 的 单 通道 或 三 通道 图 像 ， 但 也 可 以 在 这 个 函数 中 指定 一 个 分 布 
在 多 幅 图 像 ( 即 多 个 cv: :Mat ) 上 的 多 通道 图 像 。 这 也 是 把 输入 图 像 数组 作为 函数 第 一 个 参数 
的 原因 。 第 六 个 参数 aims 指明 了 直方 图 的 维 数 , 例如 1 表示 一 维 直方 图 。 在 分 析 多 通道 图 像 时 ， 
可 以 只 把 它 的 部 分 通道 用 于 计算 直方 图 ， 将 需要 处 理 的 通道 放 在 维 数 确定 的 数组 channel 中 。 
在 这 个 类 的 实现 中 只 有 一 个 通道 ， 默 认为 0。 直 方 图 用 每 个 维度 上 的 箱子 数量 ( 即 整数 数组 
histsize ) 以 及 每 个 维度 (由 ranges 数组 提供 ， 数 组 中 每 个 元 素 又 是 一 个 二 元 素数 组 ) 上 的 
最 小 值 ( 含 ) 和 最 大 值 (不 含 ) 来 描述 。 你 也 可 以 定义 一 个 不 均匀 的 直方 图 (倒数 第 二 个 参数 应 
设 为 false )， 这 时 需要 指定 每 个 箱子 的 限 值 。 


和 很 多 OpenCYV 函数 一 样 , 可 以 使 用 掩 码 表示 计算 时 用 到 的 像素 ( 所 有 掩 码 值 为 0 的 像素 都 
不 使 用 )。 此 外 还 可 以 指定 两 个 布尔 值 类 型 的 附加 参数 ， 第 一 个 表示 是 否 采 用 均匀 的 直方 图 ( 默 
认为 true )， 第 二 个 表示 是 否 人 允许 累加 多 个 直方 图 计算 的 结果 。 如 果 第 二 个 参数 为 true， 那 么 
图 像 中 的 像素 数量 会 累加 到 输入 直方 图 的 当前 值 中 。 在 计算 一 组 图 像 的 直方 图 时 , 就 可 以 使 用 这 
个 参数 。 


得 到 的 直方 图 存储 在 cv: :Mat 的 实例 中 。 事 实 上 , cv: :Mat 类 可 用 于 操作 通用 的 W 维 矩阵 。 
第 2 章 讲 过 ，cv: :Mat 类 定义 了 适用 于 一 维 、 二 维和 三 维 矩 阵 的 at 方法 。 正 因 如 此 ,我们 才 可 
以 在 getHistogramImage 方法 中 用 下 面 的 代码 访问 一 维 直方 图 的 每 个 箱子 : 


float binVal = hist.at<float>(h); 


注意 ， 直 方 图 中 的 值 存储 为 float 值 。 







































































































































































4.2.4 扩展 阅读 


本 节 中 的 Histogram1D 类 简化 了 cv: :calcHist 函数 ， 把 它 限定 为 只 用 于 一 维 直 方 图 。 
这 对 灰 度 图 像 是 有 用 的 ， 但 是 怎么 处 理 彩 色 图 像 呢 ? 
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计算 彩色 图 像 的 直方 图 


我 们 可 以 用 同一 个 cv: :calcHist 函数 计算 多 通道 图 像 的 直方 图 。 例 如 , 若 想 计算 彩色 BGR 
图 像 的 直方 图 ， 可 以 这 样 定义 一 个 类 : 




















class ColorHistogram { 








private: 
int histSize[3]; // 每 个 维度 的 大 小 
float hranges[2]; // 值 的 范围 (三 个 维度 用 同一 个 值 ) 
const float* ranges[3]; // 每 个 维度 的 范围 
int channels[3]; // 需要 处 理 的 通道 
pupblic: 





ColorHistogram() { 


// 准备 用 于 彩色 图 像 的 默认 参数 
// 每 个 维度 的 大 小 和 范围 是 相等 的 

















histSsizel0l= histSsize[l1]= DSSIT2ET2]= 256:7 
hranges[0]= 0.0; // BGR 范围 为 0~256 
hranges[1]= 256.0 
ranges[0]= hranges; // 这 个 类 中 
ranges[1]= hranges; // 所 有 通道 的 范围 都 相等 
ranges[2]= hranges 
channels[0]= 0; // 三 个 通道 : B 
channels[1]= 1; // G 
channels[2]= 2; ZAR 

} 














这 里 的 直方 图 将 会 是 三 维 的 ， 因 此 需要 为 每 个 维度 指定 一 个 范围 。 本 例 中 的 BGR 图 像 的 三 
个 通道 范围 都 是 [0,255] 。 准 备 好 参数 后 ， 就 可 以 用 下 面 的 方法 计算 颜色 直方 图 了 : 
// 计算 直方 图 


cv::Mat getHistogram(const cv::Mat &image) { 
cv::Mat hist; 









































// 计算 直方 图 
cv::calcHist(&image,，1,， // 单 幅 图 像 的 直方 图 
channels, // 用 到 的 通道 








cv::Mat()， // 不 使 用 掩 码 

hist, // 得 到 的 直方 图 

3 ， // 这 是 一 个 三 维 直 方 图 
histSize, // 箱子 数量 

ranges // 像素 值 的 范围 





) 


return hist; 


} 


上 述 方 法 返回 一 个 三 维 的 cv: :Mat 实例 。 如 果 选 用 含有 256 个 箱子 的 直方 图 ， 这 个 矩阵 就 
有 (256)^3 个 元 素 ， 表 示 超 过 1600 万 个 项 目 。 在 很 多 应 用 程序 中 ， 最 好 在 计算 直方 图 时 减少 箱子 
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的 数量 。 也 可 以 使 用 数据 结构 cv: :SparseMat 表示 大 型 稀疏 矩阵 ( 即 非 零 元 素 非常 稀少 的 矩 
阵 )， 这 样 不 会 消耗 过 多 的 内 存 。cv: :calcHist 函数 具有 返回 这 种 矩阵 的 版 本 ， 因 此 只 需要 简 
单 地 修改 一 下 前 面 的 方法 ， 即 可 使 用 cv: :SparseMatrix: 


// 计算 直方 图 
cvV: :SparSseMat getSparseHistogram(const cv::Mat &image) { 














cv::SparseMat hist(3, // 维 数 
histSize, // 每 个 维度 的 大 小 
CY .32F)3 

// 计算 直方 图 

cv::calcHist(&image，1， // 单 幅 图 像 的 直方 图 
channels, // 用 到 的 通道 
cv::Mat()， // 不 使 用 掩 码 
Ht // 得 到 的 直方 图 
3， // 这 是 三 维 直 方 图 
histSize, // 箱子 数量 
ranges // 像素 值 的 范围 





3 
return hist; 


} 
这 是 一 个 三 维 直 方 图 ， 面 起 来 比较 困难 。 我 们 也 可 以 通过 显示 独立 的 R、G 和 B 通道 的 直方 
图 来 说 明 图 像 中 颜色 的 分 布 情况 。 






































4.2.5 ”参阅 
口 4.5 节 将 使 用 颜色 直方 图 来 检测 特定 的 图 像 内 容 。 








4.3 利用 查找 表 修 改 图 像 外 观 


图 像 直 方 图 提供 了 利用 现 有 像素 强度 值 进行 场景 泻 染 的 方法 。 通 过 分 析 图 像 中 像素 值 的 分 布 
情况 ,你 可 以 利用 这 个 信息 来 修改 图 像 ， 甚至 提高 图 像 质量 。 本 将 解释 如 何 用 一 个 简单 的 映射 
函数 〈 称 为 查找 表 ) 来 修改 图 像 的 像素 值 。 我 们 即将 看 到 ， 查 找 表 通常 根据 直方 分 布 图 生成 。 





















































4.3.1 ”如 何 实现 


查找 表 是 个 一 对 一 (或 多 对 一 ) 的 函数 ,定义 了 如 何 把 像素 值 转换 成 新 的 值 。 它 是 一 个 一 维 
数组 ， 对 于 规则 的 灰 度 图 像 ， 它 包含 256 个 项 目 。 利 用 查找 表 的 项 目 1 ， 可 得 到 对 应 灰 度 级 的 新 
强度 值 ， 如 下 所 示 : 


newIntensity= lookup[loldIntensity]; 
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OpenCV 中 的 cv: :LUT 函数 在 图 像 上 应 用 查找 表 生 成 一 个 新 的 图 像 。 查 找 表 通常 根据 直方 
图 生成 ， 因 此 在 Histogram1D 类 中 加 入 了 这 个 函数 : 








static cv::Mat applyLookUp (const cv::Mat& image, // 输入 图 像 
const cv::Mat& lookup) {// uchar 类 型 的 1x256 数组 





// 输出 图 像 


cv::Mat result; 





// 应 用 查找 表 
Cv: :LUT(image, lookup,result); 
return result; 


el 
4.3.2 ”实现 原理 


在 图 像 上 应 用 查找 表 后 会 得 到 一 个 新 图 像 ， 新 图 像 的 像素 强度 值 被 修改 为 查找 表 中 规定 的 
值 。 下 面 是 一 个 简单 的 转换 过 程 : 


// 创建 一 个 图 像 反 转 的 查找 表 
cv::Mat lut(1,256,CV_8U); // 256x1 纶 阵 








for (int i=0; i<256; i++) { 
// 0 变 成 255、1 变 成 254， 以 此 类 推 
lut.at<uchar>(i)= 255-1i; 
} 
这 个 转换 过 程 对 像素 强度 进行 了 简单 的 反 转 ， 即 强度 0 变 成 255、1 变 成 254、 最 后 255 变 成 
0。 对 图 像 应 用 这 种 查找 表 后 ， 会 生成 原始 图 像 的 反 向 图 像 。 使 用 上 一 节 的 图 像 ， 得 到 的 结果 如 
下 所 示 。 


轿 Negative image 
本 
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4.3.3 扩展 阅读 


对 于 需要 更 换 全 部 像素 强度 值 的 程序 , 都 可 以 使 用 查找 表 。 但 是 这 个 转换 过 程 必须 是 针对 整 
幅 图 像 的 。 也 就 是 说 ， 一 个 强度 值 对 应 的 全 部 像素 都 必须 使 用 同一 种 转换 方法 。 

1. 伸展 直方 图 以 提高 图 像 对比 度 

定义 一 个 修改 原始 图 像 直 方 图 的 查找 表 可 以 提高 图 像 的 对 比 度 。 例 如 ， 观 察 4.2 节 的 图 像 直 
方 图 可 以 发 现 , 图 中 根本 没有 大 于 200 的 像素 值 。 我们 可 以 通过 伸展 直方 图 来 生成 一 个 对 比 度 更 
高 的 图 像 。 为 此 要 使 用 一 个 百分比 阔 值 ， 表示 伸展 后 图 像 的 最 小 强度 值 (0 ) 和 最 大 强度 值 (255 ) 
像素 的 百分比 。 

我 们 必须 在 强度 值 中 找到 最 小 值 ( imin ) 和 最 大 值 ( imax ), 使 得 所 要 求 的 最 小 的 像素 数量 
高 于 国 值 指定 的 百分比 。 这 可 以 用 以 下 儿 个 循环 ( 其 中 hist 是 计算 得 到 的 一 维 直方 图 ) 实现 : 


// 像素 的 百分比 
float number= image.total()*percentile; 



























































// 找到 直方 图 的 左 极限 
i, Lm 0 
for (float count=0.0; imin < 256; imin++) { 
// 小 于 或 等 于 imin 的 像素 数量 必须 >number 
if ((count+=hist.at<float>(imin)) >= number) 
break; 





// 找到 直方 图 的 右 极限 


int imax = 255; 


tor, (tloat .Cournts0 0 "ina S07, Tmax==) 六 
// 大 于 或 等 于 imax 的 像素 数量 必须 > number 
if ((count += hist.at<float>(imax)) >= number) 
break; 


} 


然后 重新 映射 强度 值 , 使 imin 的 值 变 成 强度 值 0，imax 的 值 变 成 强度 值 255。 两 者 之 间 的 
i 进行 线性 映射 : 





255.0*(i-imin)/ (imax-imin); 


伸展 1% 后 的 图 像 如 下 所 示 。 
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团 Stretched Image 一 同 XxX 








伸展 过 的 直方 图 如 下 所 示 。 








国有 Stretched H 一 回 xX 








2. 在 彩色 图 像 上 应 用 查找 表 

第 2 章 定 义 了 一 个 减 色 函 数 ， 通 过 修改 图 像 中 的 BGR 值 减少 可 能 的 颜色 数量 。 当 时 的 实现 
方法 是 循环 遍历 图 像 中 的 像素 ,并 对 每 个 像素 应 用 减 色 函数 。 实 际 上 , 更 高 效 的 做 法 是 预先 计算 
好 所 有 的 减 色 值 , 然 后 用 查找 表 修改 每 个 像素 。 利 用 本 节 的 方法 , 这 很 容易 实现 。 下 面 是 新 的 减 
色 函 数 : 


void colorReduce (cv: :Mat &image, int div=64) { 





// 创建 一 维 查 找 表 
cv::Mat lookup(1,256,CV_8U); 


// 定义 减 色 查找 表 的 值 


for (int i=0; i<256; i++) 
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lookup.at<uchar>(i)= i/div*div + div/2; 


// 对 每 个 通道 应 用 查找 表 
cv::LUT(image, Lookup, image); 


} 


这 种 减 色 方案 之 所 以 能 起 作用 , 是 因为 在 多 通道 图 像 上 应 用 一 维 查 找 表 时 , 同一 个 查找 表 会 
独立 地 应 用 在 所 有 通道 上 。 如 果 查 找 表 超过 一 个 维度 ， 那么 它 和 所 用 图 像 的 通道 数 必须 相同 。 


























4.3.4 ”参阅 
口 4.4 节 将 展示 另 一 种 增强 图 像 对 比 度 的 方法 。 


4.4 直方 图 均衡 化 


上 节 介 绍 了 一 种 增强 图 像 对 比 度 的 方法 , 即 通过 伸展 直方 图 , 使 它 布 满 可 用 强度 值 的 全 部 范 
围 。 这 方法 确实 可 以 简单 有 效 地 提高 图 像 质 量 , 但 很 多 时 候 , 图 像 的 视觉 缺陷 并 不 因为 它 使 用 的 
强度 值 范围 大 窗 ， 而 是 因为 部 分 强度 值 的 使 用 频率 远 高 于 其 他 强度 值 。4.2 节 显 示 的 直方 图 就 是 
此 类 现象 的 一 个 很 好 的 例子 一 一 中 等 灰 度 的 强度 值 非常 多 ， 而 较 暗 和 较 亮 的 像素 值 则 非常 稀少 。 
因此 , 均衡 对 所 有 像素 强度 值 的 使 用 频率 可 以 作为 提高 图 像 质量 的 一 种 手段 。 这 正 是 直方 图 均衡 
化 这 一 概念 背后 的 思想 ， 也 就 是 让 图 像 的 直方 图 尽 可 能 地 平稳 。 



























































4.4.1 ”如 何 实现 
OpenCV 提供 了 一 个 易 用 的 函数 ， 用 于 直方 图 均衡 化 处 理 。 这 个 函数 的 调用 方式 为 : 





cv: :equalizeHist (image,result); 


对 图 像 应 用 该 函数 后 ， 得 到 的 结果 如 下 所 示 。 




















国 Equalized Image ES xX 
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均衡 化 后 图 像 的 直方 图 如 下 所 示 。 











因子 Equalized H 过 xX 















































当然 , 因为 查找 表 是 针对 整 幅 图 像 的 多 对 一 的 转换 过 程 ,所 以 直方 图 是 不 能 做 到 完全 平稳 的 。 
但 是 可 以 看 出 ， 直 方 图 的 整体 分 布 情况 已 经 比 原来 均衡 多 了 。 





























4.4.2 ”实现 原理 


在 一 个 完全 均衡 的 直方 图 中 , 所 有 箱子 所 包含 的 像素 数量 是 相等 的 。 这 意味 着 50% 像 素 的 强 
度 值 小 于 128 (强度 中 值 )，25% 像 素 的 强度 值 小 于 64， 以 此 类 推 。 这 个 现象 可 以 用 一 条 规则 来 
表示 : ps 像素 的 强度 值 必须 小 于 或 等 于 255*ps。 这 条 规则 用 于 直方 图 均衡 化 处 理 ， 表 示 强 度 值 
i 的 映像 对 应 强度 值 小 于 i 的 像素 所 占 的 百分比 。 因 此 可 以 用 下 面 的 语句 构建 所 需 的 查找 表 : 

lookup.at<uchar>(i)= static cast<uchar>(255.0*p[i]/image.total ()); 

这 里 的 p[i] 是 强度 值 小 于 或 等 于 i 的 像素 数量 ,通常 称 为 累计 直方 图 。 这 种 直方 图 包含 小 
于 或 等 于 指定 强度 值 的 像素 数量 ， 而 非 仅 仪 包含 等 于 指定 强度 值 的 像素 数量 。 前 面 说 过 
image.total() 返 回 图 像 的 像素 总 数 ， 因 此 p[i]/image.total () 就 是 像素 数量 的 百分比 。 

一 般 来 说 ， 直 方 图 均衡 化 会 大 大 改进 图 像 外 观 ， 但 是 改进 的 效果 会 因 图 像 可 视 内 容 的 不 同 
而 不 同 。 


















































4.5 反 向 投影 直方 图 检测 特定 图 像 内 容 


直方 图 是 图 像 内 容 的 一 个 重要 特性 。 如 果 图 像 的 某 个 区 域 含有 特定 的 纹理 或 物体 , 这 个 区 域 
的 直方 图 就 可 以 看 作 一 个 函数 , 该 函数 返回 某 个 像素 属于 这 个 特殊 纹理 或 物体 的 概率 。 本 广 将 介 
绍 如 何 运用 直方 图 反 向 投影 的 概念 方便 地 检测 特定 的 图 像 内 容 。 
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4.5.1 如 何 实现 


假设 你 希望 在 某 幅 图 像 中 检测 出 特定 的 内 容 《〈 例如 检测 出 下 图 中 天 上 的 云彩 )， 首 先 要 做 的 
就 是 选择 一 个 包含 所 需 样本 的 感 兴趣 区 域 。 下 图 中 的 该 区 域 就 在 矩形 内 部 。 











在 程序 中 用 下 面 的 方法 可 以 得 到 这 个 感 兴趣 区 域 : 


cv::Mat imageROI; 
imageROI= image (cv::Rect (216,33,24,30)); // 云彩 区 域 


接着 提取 该 ROI 的 直方 图 。 使 用 4.2 节 的 Histogram1D 类 ， 能 轻松 获得 该 直方 图 : 


Histogram1D h; 
cv::Mat hist= h.getHistogram(imageROI) ; 


通过 归 一 化 直方 图 ， 我 们 可 得 到 一 个 函数 ， 由 此 可 得 到 特定 强度 值 的 像素 属于 这 个 区 域 的 
概率 : 


Cv: :normalize (histogram,histogram,l1.0); 


反 向 投影 直方 图 的 过 程 包括 : 从 归 一 化 后 的 直方 图 中 读 取 概率 值 并 把 输入 图 像 中 的 每 个 像素 
替换 成 与 之 对 应 的 概率 值 。OpenCYV 中 有 一 个 函数 可 完成 此 任务 : 








Cv::calcBackProject (&image, 
1, // 一 幅 图 像 
channels, // 用 到 的 通道 ， 取 决 于 直方 图 的 维度 
histogram， // 需要 反 向 投影 的 直方 图 











result, // 反 向 投影 得 到 的 结果 
ranges, // 值 的 范围 
255.0 // 选用 的 换算 系数 


// 把 概率 值 从 1 映射 到 255 


> 
得 到 的 结果 就 是 下 面 的 概率 分 布 图 。 为 提高 可 读 性 ， 对 图 像 做 了 反 色 处 理 , 属于 该 区 域 的 概 
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率 从 亮 〈 低 概率 ) 到 暗 〈 高 概率 )， 如 下 所 示 。 








轿 Backprojection result 十 口 XxX 






































如 果 对 此 图 做 阔 值 化 处 理 ， 就 能 得 到 最 有 可 能 是 “云彩 ”的 像素 : 
cv::threshold(result, result, threshold, 255, cv::THRESH_BINARY); 


得 到 的 结果 如 下 所 示 。 











圈 寺 Detection Result 一 口 X 











4.5.2 ”实现 原理 


前 面 的 结果 并 不 令 人 满意 。 因 为 除了 云彩 ,其 他 区 域 也 被 错误 地 检测 到 了 。 这 个 概率 函数 是 
从 一 个 简单 的 灰 度 直方 图 提取 的 , 理解 这 点 很 重要 。 很 多 其 他 像素 的 强度 值 与 云彩 像素 的 强度 值 
是 相同 的 , 在 对 直方 图 进行 反 向 投影 时 会 用 相同 的 概率 值 蔡 换 具有 相同 强度 值 的 像素 。 有 一 种 方 
案 可 提高 检测 效果 ， 那 就 是 使 用 色彩 信息 。 要 实现 这 点 ， 需 改变 对 cv: :calBackProject 的 调 
用 方式 ，4.5.3 市 将 详细 介绍 这 个 函数 。 
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cv: :calBackProject 图 数 和 cv: :calcHist 有 些 类 似 。 一 个 像素 的 值 对 应 直方 图 的 一 个 
箱子 ( 可 能 是 多 维 的 )。 但 cv: :calBackProject 不 会 增加 箱子 的 计数 ， 而 是 把 从 箱子 读 取 的 值 
赋 给 反 向 投影 图 像 中 对 应 的 像素 。 函 数 的 第 一 个 参数 指明 输入 的 图 像 (通常 只 有 一 个 )， 接 着 需 
要 指明 使 用 的 通道 数量 。 这 里 传递 给 函数 的 直方 图 是 一 个 输入 参数 , 它 的 维度 数 要 与 通道 列表 数 
组 的 维度 数 一 致 。 与 cv: :calcHist 函数 一 样 ， 这 里 的 ranges 参数 用 数组 形式 指定 了 输入 直 
方 图 的 箱子 边界 。 该 数组 以 浮 点 数组 为 元 素 ， 每 个 数组 元 素 表 示 一 个 通道 的 取 值 范 围 〈 最 小 值 
和 最 大 值 )。 

得 出 结果 是 一 幅 图 像 ， 包含 计 算得 到 的 概率 分 布 图 。 由 于 每 个 像素 已 经 被 替换 成 直方 图 中 对 
应 箱子 处 的 值 ， 因 此 输出 图 像 的 值 范围 是 0.0~1.0 (假定 输入 的 是 归 一 化 直方 图 )。 最 后 一 个 参 
数 是 换算 系数 ， 可 用 来 重新 缩放 这 些 值 。 

































































4.5.3 扩展 阅读 
现在 来 学 习 如 何在 直方 图 反 向 映射 算法 中 使 用 色彩 信息 。 
反 向 映射 颜色 直方 图 


多 维度 直方 图 也 可 以 在 图 像 上 进行 反 向 映射 。 我 们 定义 一 个 封装 反 向 映射 过 程 的 类 , 首先 定 
义 必 需 的 参数 并 初始 化 : 


class ContentFinder { 
private: 
// 直方 图 参数 
float hranges[2]; 
const float* ranges[3]; 
int channels[3]; 





float threshold; // 判断 冰 值 
cv: :Mat histogram; // 输入 直方 图 
public: 
ContentFinder() : threshold(0.1f) { 


// 本 类 中 所 有 通道 的 范围 相同 
ranges[0]= hranges; 
ranges[1]= hranges; 
ranges[2]= hranges; 


} 


这 里 引入 了 一 个 闵 值 参数 ， 用 于 创建 显示 检测 结果 的 二 值 分 布 图 。 如 果 这 个 参数 设 为 负数 ， 
就 会 返回 原始 的 概率 分 布 图 。 输 入 的 直方 图 用 下 面 的 方法 归 一 化 (但 这 不 是 必须 的 ): 


// 设置 引用 的 直方 图 

void setHistogram(const cv::Maté& h) { 
histogram= h; 
cv::normalize(histogram,histogram,l1.0); 


} 
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要 反 向 投影 直方 图 ， 只 需 指定 图 像 、 范 围 ( 这 里 假定 所 有 通道 的 范围 是 相同 的 ) 和 所 用 通道 
的 列表 。 方法 fina 可 以 进行 反 向 投影 。 它 有 两 个 版 本 ,一 个 使 用 图 像 的 三 个 通道 ， 并 调用 通用 
版 本 的 方法 : 


// 使 用 全 部 通道 ， 范 围 [0,256] 
cv::Mat find(const cvV: :Mat& image) { 


cv::Mat result; 

hranges[0]= 0.0; // 默认 范围 [0,256]hranges[1]= 256.0; 
channels [0]= // 三 个 通道 
channels [1]= 
channels[2]= 
return findl( 


} 





image, hranges[0], hranges[1], channels); 





// 查找 属于 直方 图 的 像素 
cv::Mat find(const cv::Mat& image, float minValue, float maxValue, 
int *channels) { 





cv::Mat result; 
hranges[0]= minValue; 
hranges[1]= maxValue; 

// 直方 图 的 维度 数 与 通道 列表 一 致 


for (int i=0; i<histogram.dims; i++) 














this->channels[i]= channels[i]; 
cv::calcBackProject (&image，1，// 只 使 用 一 幅 图像 
channels, // 通道 
histogram, // 直方 图 
result, // 反 向 投影 的 图 像 
ranges, // 每 个 维度 的 值 范围 
255.0 // 选用 的 换算 系数 


// 把 概率 值 从 1 映射 到 255 
)s 
} 


// 对 反 向 投影 结果 做 阅 值 化 ， 得 到 二 值 图 像 
if (threshold>0.0) 
cv::threshold(result, result,255.0*threshold, 
255.0, cv::THRESH_BINARY); 





return result; 


} 


现在 把 前 面 用 过 的 图 像 换 成 彩色 版 本 ( 访问 本 书 的 网 站 查看 彩色 图 像 ), 并 使 用 一 个 BGR 直 
方 图 。 这 次 来 检测 天 空 区 域 。 首 先 装载 彩色 图 像 ， 定义 ROI, 然后 计算 经 过 缩减 的 色彩 空间 上 的 
3D 直方 图 ， 代 码 如 下 所 示 : 

// 装载 彩色 图 像 


ColorHistogram hc; 
Cv::Mat color= cv::imread("waves.jpg"); 














// 提取 ROI 
imageROI= color(cv::Rect (0,0,100,45)); // 蓝 色 天 空 区 域 
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// 取得 3D 颜色 直方 图 (每 个 通道 含 8 个 箱子 ) 
hc.setSize(8); // 8x8x8 
cv::Mat shist= hc.getHistogram(imageROI); 


下 一 步 是 计算 直方 图 ， 并 用 fing 方法 检测 图 像 中 的 天 空 


// 创建 内 容 搜寻 器 
ContentFinder finder; 
// 设置 用 来 反 向 投影 的 直方 图 
finder.setHistogram(shist); 
finder.setThreshold(0.05f); 


Xl 
臣 














// 取得 颜色 直方 图 的 反 向 投影 


Cv::Mat result= finder.find(color); 


上 一 市 的 彩色 图 像 的 检测 结果 如 下 所 示 。 























通常 来 说 , 采用 BGR 色彩 空间 识别 图 像 中 的 彩色 物体 并 不 是 最 好 的 方法 。 为 了 提高 可 靠 性 ， 
我 们 在 计算 直方 图 之 前 减少 了 颜色 的 数量 ( 要 知道 原始 BGR 色彩 空间 有 超过 1600 万 种 颜色 )。 
提取 的 直方 图 代表 了 天 空 区 域 的 典型 颜色 分 布 情况 。 用 它 在 其 他 图 像 上 反 向 投影 , 也 能 检测 到 天 
空 区 域 。 注 意 ， 用 多 个 天 空 图 像 构建 直方 图 可 以 提高 检测 的 准确 性 。 

本 例 中 ， 计 算 稀 疏 直方 图 可 以 减少 内 存 使 用 量 。 你 可 以 使 用 cv: :SparseMat 重 做 该 实验 。 
另外 ， 如 果 要 寻找 色彩 鲜艳 的 物体 ， 使 用 HSV 色彩 空间 的 色调 通道 可 能 会 更 加 有 效 。 在 其 他 情 
况 下 ， 最 好 使 用 感知 上 均匀 的 色彩 空间 (例如 L*a*b* ) 的 色 度 组 件 。 













































































4.5.4 ”参阅 


口 4.6 节 将 用 HSV 色 彩 空间 检测 图 像 中 的 物体 。 检 测 图 像 内 容 的 方法 很 多 ， 这 是 其 中 的 一 种 。 
D 第 3 章 的 最 后 两 节 介 绍 了 多 种 色彩 空间 ， 可 用 于 直方 岁 反 向 投影 。 
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4.6 ”用 均值 平移 算法 查找 目标 


直方 图 反 向 投影 的 结果 是 一 个 概率 分 布 图 ， 表 示 一 个 指定 图 像 片段 出 现在 特定 位 置 的 概率 。 
如 果 我 们 已 经 知道 图 像 中 某 个 物体 的 大 致 位 置 , 就 可 以 用 概率 分 布 图 找到 物体 的 准确 位 置 。 窗口 
中 概率 最 大 的 位 置 就 是 物体 最 可 能 出 现 的 位 置 。 因 此 , 我 们 可 以 从 一 个 初始 位 置 开始 ,在 周围 反 
复 移 动 以 提高 局 部 匹配 概率 ， 也 许 就 能 找到 物体 的 准确 位 置 。 这 个 实现 方法 称 为 均值 平移 算法 。 















































4.6.1 ”如何 实现 
假设 我 们 已 经 识别 出 一 个 感 兴趣 的 物体 (例如 猩 独 的 脸 )， 如 下 图 所 示 : 








故 站 Image 1 














这 次 采用 HSV 色彩 空间 的 色调 通道 来 描述 物体 。 这 意味 着 需要 把 图 像 转 换 成 HSV 色彩 空间 
并 提取 色调 通道 ， 然 后 计算 指定 ROI 的 一 维 色调 直方 图 。 参 见 以 下 代码 : 


// 读 取 参考 图 像 

cv::Mat image= cv::imread("baboon01.jpg"); 

// 狮 独 脸 部 的 ROTI 

Cv"REot reet( LL0v. .45> 35) 45)3 

cv::Mat imageROI= image (rect); 

// 得 到 独 狮 脸 部 的 直方 图 

int minSat=65; 

ColorHistogram hc; 

cv::Mat colorhist= hc.getHueHistogram(imageROI,minSat); 


我 们 在 ColorHistogram 类 中 增加 了 一 个 简便 的 方法 来 获得 色调 直方 图 ， 代 码 如 下 所 示 : 


// 计算 一 维 色 调 直方 图 
// BGR 的 原 图 转换 成 HSV 
// 忽略 低 饱 和 度 的 像素 


cv::Mat getHueHistogram(const cv::Mat &image, int minSaturation=0) { 
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cv::Mat hist; 


// 转换 成 HSV 色彩 空间 
cv::Mat hsv; 
Cv::CvtColor (image, hsv, CV_BGR2HSV); 


// 掩 码 (可 能 用 到 ， 也 可 能 用 不 到 ) 
cv::Mat mask; 
// 根据 需要 创建 掩 码 


if (minSaturation>0) { 





// 将 3 个 通道 分 割 进 3 幅 图 像 
std: :Vector<cV: :Mat> v; 
VD 人 (PSV 


// 屏蔽 低 饱 和 度 的 像素 
cv::threshold(v[1],mask,minSaturation, 
255, cv::THRESH_BINARY); 








} 

// 准备 一 维 色调 直方 图 的 参数 
hranges[0]= 0.0; // 范围 为 0~180 
hranges[1]= 180.0; 

channels[0]= 0; // 色调 通道 


// 计算 直方 图 
cv::calcHist(&hsv，1， // 只 有 一 幅 图 像 的 直方 图 
channels，// 用 到 的 通道 





mask, // 二 值 掩 码 
higt, // 生成 的 直方 图 
i // 这 是 一 维 直 方 图 


histSize，// 箱子 数量 
ranges // 像素 值 范围 





] 


return hist; 


然后 把 得 到 的 直方 图 传 给 ContentFingder 类 的 实例 ， 代 码 如 下 所 示 : 








ContentFinder finder; 
finder.setHistogram(colorhist); 


现在 打开 第 二 幅 图 像 , 我 们 想 在 它 上 面 定位 狮 独 的 脸 部 。 首先 , 需要 把 这 幅 图 像 转换 成 HSV 
色彩 空间 ， 然 后 对 第 一 幅 图 像 的 直方 图 做 反 向 投影 ， 参 见 下 面 的 代码 : 


image= cv::imread("baboon3.jpg"); 

// 转 枚 成 HSV 色彩 空间 

Cv::CvtColor (image, hsv, CV_BGR2HSV); 

// 得 到 | 色调 直方 图 的 反 向 投影 

int mbL]={033 

finder.setThreshold(-1.0f); // 不 做 阅 值 化 

cv::Mat result= finder.find(hsv,0.0f,180.0f,ch); 
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rect 对 象 是 一 个 初始 矩形 区 域 ( 即 初 始 图 像 中 独 狮 脸 部 的 位 置 ) 现在 OpenCV 的 cv:: 
meanShift 算法 将 会 把 它 修改 成 狮 狮 脸 部 的 新 位 置 ， 代 码 如 下 所 示 : 


// 窗口 初始 位 置 
Cv:Rect reéet(110,260,35,40)3 











// 用 均值 偏 移 法 搜索 物体 

cv::TermCriteria criterial 
Cv: :TermCriteria: :MAX_ITER | cv::TermCriteria::EPS, 
10，// 最 多 和 迭代 10 次 
1); // 或 者 重心 移动 距离 小 于 1 个 像素 


cv::meanShift (result,rect,criteria); 


脸 部 的 初始 位 置 (红色 框 ) 和 新 位 置 (绿色 框 ) 显示 如 下 。 


























国 a |mage 2 result 3 xX 
pb 





4.6.2 ”实现 原理 


本 例 为 了 突出 被 寻找 物体 的 特征 ， 使 用 了 HSYV 色彩 空间 的 色调 分 量 。 之 所 以 这 样 做 ,是 
因为 独 独 脸 部 有 非常 独特 的 粉红 色 ， 使 用 像素 的 色调 很 容易 标识 狮 狮 脸 部 ， 因 此 第 一 步 就 是 把 
图 像 转 换 成 HSV 色彩 空间 。 使 用 cv_BGR2HSV 标志 转换 图 像 后 ， 得 到 的 第 一 个 通道 就 是 色调 
分 量 。 这 是 一 个 8 位 分 量 ， 值 范围 为 0~180 ( 如果 使 用 cv: :cvtcolor， 转 换 后 的 图 像 与 原始 
图 像 的 类 型 就 会 是 相同 的 )。 为 了 提取 色调 图 像 ，cv: :split 函数 把 三 通道 的 HSV 图 像 分 制 
成 三 个 单 通道 图 像 。 这 三 幅 图 像 存放 在 一 个 std: :vector 实例 中 ， 并 且 色 调 图 像 是 向 量 的 第 
一 个 人 口 〈 即 索引 为 0 )。 


在 使 用 颜色 的 色调 分 量 时 ， 要 把 它 的 饱和 度 考虑 在 内 〈 饱 和 度 是 向 量 的 第 二 个 人 口 )， 这 一 
点 通常 很 重要 。 如 果 颜 色 的 饱和 度 很 低 , 它 的 色调 信息 就 会 变 得 不 稳定 且 不 可 靠 。 这 是 因为 低 饮 
和 度 颜 色 的 B、G 和 及 分 量 几乎 是 相等 的 ， 这 导致 很 难 确定 它 所 表示 的 准确 颜色 。 因 此 ,我 们 决 
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定 忽略 低 饱 和 度 颜色 的 色彩 分 量 » 也 就 是 不 把 它们 统计 进 直方 图 中 ( 在 getHueHistogram 方法 
中 使 用 minsat 参数 可 屏蔽 掉 饱 和 度 低 于 此 阔 值 的 像素 )。 


均值 偏 移 算法 是 一 个 迭代 过 程 , 用 于 定位 概率 函数 的 局 部 最 大 值 , 方法 是 寻找 预定 义 窗口 内 
部 数据 点 的 重心 或 加 权 平 均值 。 然后， 把 窗口 移动 到 重心 的 位 置 ， 并 重复 该 过 程 ， 直 到 窗口 中 心 
收敛 到 一 个 稳定 的 点 。OpenCV 实现 该 算法 时 定义 了 两 个 停止 条 件 : 近 代 次 数 达到 最 大 值 
( MAX_ITER ); 窗口 中 心 的 偏 移 值 小 于 某 个 限 值 (EPS )， 可 认为 该 位 置 收敛 到 一 个 稳定 点 。 这 两 
个 条 件 存储 在 一 个 cv: :Termcriteria 实例 中 。cv: :meanShift 子 数 返回 已 经 执行 的 迭代 次 
数 。 显 然 , 结果 的 好 坏 取决 于 指定 初始 位 置 提 供 的 概率 分 布 图 的 质量 。 注意, 这 里 用 颜色 直方 图 
表示 图 像 的 外 观 。 也 可 以 用 其 他 特征 的 直方 图 ( 例如 边界 方向 直方 图 ) 来 表示 物体 。 

































































4.6.3 ”参阅 








口 均值 偏 移 算法 广泛 应 用 于 视觉 追踪 ， 第 13 章 将 会 详细 探讨 目标 跟踪 的 问题 。 

口 D. Comaniciu 和 P Meer 发 表 于 2002 年 发 表 在 IEEE Transactions on Pattern Analysis and 
Machine Intelligence 第 5 期 第 24 卷 上 的 文章 “Mean Shift A robust approach toward feature space 
analysis” 首 次 提出 了 均值 偏 移 算 法 。 

口 OpenCV 也 提供 了 CamShifi 算法 的 具体 实现 方法 。 这 个 算法 是 均值 偏 移 算法 的 改进 版 本 ， 

允许 修改 窗口 的 尺寸 和 方向 。 

















4.7 ”比较 直方 图 搜索 相似 图 像 


基于 内 容 的 图 像 检 索 是 计算 机 视觉 的 一 个 重要 课题 。 它 包括 根据 一 个 已 有 的 基准 图 像 , 找 出 
一 批 内 容 相似 的 图 像 。 我们 已 经 学 过 ,直方 图 是 标识 图 像 内 容 的 一 种 有 效 方式 ， 因 此 值得 研究 一 
下 能 否 用 它 来 解决 基于 内 容 的 图 像 检索 问题 。 


这 里 的 关键 是 , 要 仅 靠 比较 它们 的 直方 图 就 测量 出 两 幅 图 像 的 相似 度 。 我 们 需要 定义 一 个 测 
量 函 数 , 来 评估 两 个 直方 图 之 间 的 差异 程度 或 相似 程度 。 人 们 已 经 提出 了 很 多 测量 方法 , OpenCV 
在 cv: :compareHist 国 数 的 实现 过 程 中 使 用 了 其 中 的 一 些 方法 。 




















4.7.1 如 何 实现 


为 了 将 一 个 基准 图 像 与 一 批 图 像 进行 对 比 并 找 出 其 中 与 它 最 相似 的 图 像 ， 我 们 创建 了 类 
ImageComparator。 这 个 类 引用 了 一 个 基准 图 像 和 一 个 输入 图 像 (连同 它们 的 直方 图 )。 另 外 ， 
因为 要 用 颜色 直方 图 来 进行 比较 ， 因 此 ImageComparator 中 用 到 了 colorHistogram 类 : 
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class ImageComparator { 











private: 

cv::Mat refH; // 基准 直方 图 

cv::Mat inputH; // 输入 图 像 的 直方 图 
ColorHistogram hist; // 生成 直方 图 

int nBins; // 每 个 颜色 通道 使 用 的 箱子 数量 
public: 

ImageComparator() :npBins(8) { 


} 
为 了 得 到 更 加 可 靠 的 相似 度 测 量 结果 , 需要 在 计算 直方 图 时 减少 箱子 的 数量 。 可 以 在 类 中 指 
定 每 个 BGR 通道 所 用 的 箱子 数量 。 
适当 的 设置 函数 指定 基准 图 像 ， 同 时 计算 参考 直方 图 ， 代 码 如 下 所 示 : 


// 设置 并 计算 基准 图 像 的 直方 图 


void setReferenceImage (const cv::Mat& image) { 
































hist.setSize(nBins); 
refH= hist.getHistogram (image); 


} 


最 后 ，compare 方法 会 将 基准 图 像 和 指定 的 输入 图 像 进行 对 比 。 下 面 的 方法 返回 一 个 分 数 ， 
表示 两 幅 图 像 的 相似 程度 : 


// 用 BGR 直方 图 比较 图 像 


double compare(const cv::Mat& image) { 


inputH= hist.getHistogram(image); 





// 用 交叉 法 比较 直方 图 
return cv: :compareHist (refH,inputH, cv::HISTCMP_INTERSECT); 
} 
前 面 的 类 可 用 来 检索 与 给 定 的 基准 图 像 类 似 的 图 像 。 类 的 实例 中 使 用 了 基准 图 像 , 代码 如 下 
所 示 : 


ImageComparator c; 
c.setReferenceImage (image); 


这 里 用 4.5 节 中 海滩 图 的 彩色 版 本 作为 基准 图 像 ， 并 将 这 幅 图 像 与 后 面 的 一 系列 图 像 进 行 对 
比 ， 其 中 相似 度 高 的 放 前 面 ， 相 似 度 低 的 放 后 面 ， 如 下 所 示 。 
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4.7.2 ”实现 原理 


大 多 数 直 方 图 比较 方法 都 是 基于 逐个 箱子 进行 比较 的 。 正 因 如 此 , 在 测量 两 个 颜色 直方 图 的 
相似 度 时 ,把 邻近 颜色 组 合 进 同一 个 箱子 显得 十 分 重要 。 对 cv: :compareHist 的 调用 非常 简单 ， 
只 需要 输入 两 个 直方 图 ,函数 就 会 返回 它们 的 差距 。 你 可 以 通过 一 个 标志 参数 指定 想 要 使 用 的 测 
量 方法 。Imagecomparator 类 使 用 了 交叉 点 方法 ( 带 有 cv: :HISTCMP_INTERSECT 标志 )。 该 
方法 只 是 逐个 箱子 地 比较 每 个 直方 图 中 的 数值 ， 并 保存 最 小 的 值 。 然 后 把 这 些 最 小 值 累加 ， 作 为 
相似 度 测量 值 。 因 此 ， 两 个 没有 相同 颜色 的 直方 图 得 到 的 交叉 值 为 0， 而 两 个 完全 相同 的 直方 图 
得 到 的 值 就 等 于 像素 总 数 。 


其 他 可 用 的 算法 有 : 卡 方 测量 法 (cv: :HISTCMP_CHISOR 标志 ) 累加 各 箱子 的 归 一 化 平方 差 ; 
关联 性 算法 (cv: :HISTCMP_CORREL 标志 ) 基于 信号 处 理 中 的 归 一 化 交叉 关联 操作 符 测量 两 个 
言 号 的 相似 度 ; Bhattacharyya 测量 法 ( cv: :HISTCMP_BHATTACHARYYA 标志 ) 和 Kullback-Leibler 
发 散 度 (cv: :HISTCMP_KL_DIV 标志 ) 都 用 在 统计 学 中 ， 评 估 两 个 概率 分 布 的 相似 度 。 


























4.7.3 ”人 参阅 
口 OpenCV 文档 详细 描述 了 不 同 的 直方 图 比较 方法 中 使 用 的 公式 。 
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口 推土机 距离 ( Earth Mover Distance ) 是 男 一 种 流行 的 直方 图 比较 方法 ， 在 OpenCYV 中 通过 
cv: :EMD 困 数 实现 。 这 种 方法 的 主要 优势 在 于 ， 它 在 评估 两 个 直方 图 的 相似 度 时 ， 考 虑 
了 在 邻近 箱子 中 发 现 的 数值 。 具 体 描 述 可 查看 Y. Rubner、C. Tomasi 和 L.J. Guibas 于 2000 
年 发 表 在 Int. Journal of Computer Vision 第 2 期 第 40 卷 第 99 页 至 第 121 页 的 “The Earth 
Mover’s Distance as a Metric for Image Retrieval” 。 








4.8 ”用 积分 图 像 统计 像素 


前 面 几 节 讲 了 直方 图 的 计算 方法 , 即 遍历 图 像 的 全 部 像素 并 累计 每 个 强度 值 在 图 像 中 出 现 的 
次 数 。 我 们 也 看 到 ， 有 了 时 只 需要 计算 图 像 中 某 个 特定 区 域 的 直方 图 。 实际 上 ， 累 计 图 像 某 个 子 区 
域内 的 像素 总 数 是 很 多 计算 机 视觉 算法 中 的 常见 过 程 。 现在 假设 需要 对 图 像 中 的 多 个 感 兴趣 区 域 
计算 几 个 此 类 直方 图 , 这 些 计算 过 程 马上 都 会 变 得 非常 耗 时 。 这 种 情况 下 ， 有 一 个 工具 可 以 极 大 
地 提高 统计 图 像 子 区 域 像素 的 效率 ， 那 就 是 积分 图 像 。 


使 用 积分 图 像 统计 图 像 感 兴趣 区 域 的 像素 是 一 种 高 效 的 方法 。 它 在 程序 中 的 应 用 非常 广泛 ， 
例如 用 于 计算 基于 不 同 大 小 的 滑动 窗口 。 

本 节 将 讲解 积分 图 像 背 后 的 原理 。 这 里 的 目标 是 说 明 如 何 只 用 三 次 算术 运算 , 就 能 累加 一 个 
和 矩形 区 域 的 像素 。 在 学 会 这 个 概念 后 ，4.8.3 节 将 展示 两 个 有 效 使 用 积分 图 像 的 实例 。 



































4.8.1 如 何 实现 


本 节 将 使 用 下 面 的 图 像 来 做 演示 , 识别 出 图 像 中 的 一 个 感 兴趣 区 域 , 区 域内 容 为 一 个 骑 自 行 
车 的 女孩 。 


男 引 Initial Image 
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在 累加 多 个 图 像 区 域 的 像素 时 ， 积 分 图 像 显 得 非常 有 用 。 通 常 来 说 ， 要 获得 感 兴趣 区 域 全 部 


像素 的 累加 和 ， 


// 打开 图 像 














常规 的 代码 如 下 所 示 : 


Cv::Mat image= cv::imread("bike55.bmp",0); 


// 定义 图 像 的 ROI (这 里 为 骑 自 行车 的 女孩 ) 





int xo=97, 


YOELLZS 


int width=25, height=30; 

cv::Mat roi (image,cv::Rect (xo,yo,width,height)); 
// 计算 累加 值 

// 返回 一 个 多 通道 图 像 下 的 Scalar 数值 

Cv::Scalar sum= cv::sum(roi); 


cv: :sum 函数 只 是 遍历 区 域内 的 所 有 像素 ， 并 计算 累加 和 。 使 用 积分 图 像 后 ， 只 需要 三 次 
加 法 运算 即 可 实现 该 功能 。 不 过 你 得 先 计算 积分 图 像 ， 代 码 如 下 所 示 : 
// 计算 积分 图 像 


cv::Mat integralImage; 
cv::integral (image, integralImage,CV_325S); 


可 以 在 积分 图 像 上 用 简单 的 算术 表达 式 绑 得 同样 的 结果 (下 一 节 会 详细 解释 )， 代 码 为 : 


// 用 三 个 加 / 减 运算 得 到 一 个 区 域 的 累加 值 
int sumInt= integralImage.at<int>(yo+t+height,xo+width)— 


两 种 做 法 得 到 的 结果 是 一 样 的 。 但 计算 积分 图 像 需要 遍历 全 部 像素 , 因此 速度 比较 慢 。 关 键 








( 
integralImage.at<int>(yo+height,xo)— 
integralImage.at<int>(yo,xo+width)+ 
integralImage.at<int> (yo,xo); 











在 于 , 一 旦 这 个 初始 计算 完成 , 你 只 需要 添加 四 个 像素 就 能 得 到 感 兴趣 区 域 的 累加 和 , 与 区 域 大 


小 无 关 。 因此 ， 


如 果 需 要 在 多 个 尺寸 不 同 的 区 域 上 计算 像素 累加 和 ， 最 好 采用 积分 图 像 。 


4.8.2 ”实现 原理 


上 一 闻 简 单 演示 了 积分 图 像 的 “神奇 ”功能 ， 即 可 用 来 快速 计算 矩形 区 域内 的 像素 累加 和 ， 
并 通过 演示 简要 介绍 了 积分 图 像 的 概念 。 为 了 理解 积分 图 像 的 实现 原理 ,我 们 先 对 它 下 一 个 定义 : 
取 图 像 左 上 方 的 全 部 像素 计算 累加 和 , 并 用 这 个 累加 和 替换 图 像 中 的 每 一 个 像素 , 用 这 种 方式 得 
到 的 图 像 称 为 积分 图 像 。 计 算 积分 图 像 时 ， 只 需 对 图 像 扫描 一 次 。 实 际 上 ， 当 前 像素 的 积分 值 等 
于 上 方 像素 的 积分 值 加 上 当前 行 的 累计 值 。 因 此 积分 图 像 就 是 一 个 包含 像素 累加 和 的 新 图 像 。 为 

















防止 溢出 ， 积 4 

















图 像 的 值 通常 采用 int 类 型 (cvV_328 ) 或 float 类 型 (cv_32F )。 例 如 在 下 图 























中 ， 积 分 图 像 的 像素 A 包含 左上 角 区 域 ， 即 双 阴 影 线 图 案 标识 的 区 域 的 像素 的 累加 和 。 
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计算 完 积分 图 像 后 ,只 需要 访问 四 个 像素 就 可 以 得 到 任何 矩形 区 域 的 像素 累加 和 。 这 里 解释 
一 下 原因 。 再 来 看 上 面 的 图 片 ， 计 算 由 A、B 、C、D 四 个 像素 表示 区 域 的 像素 累加 和 ， 先 读 取 D 
的 积分 值 ， 然 后 减 去 B 的 像素 值 和 C 的 左手 边区 域 的 像素 值 。 但 是 这 样 就 把 A 左 上 角 的 像素 累 
加 和 减 了 两 次 ， 因 此 需要 重新 加 上 A 的 积分 值 。 所 以 计算 A、B 、C、D 区 域内 的 像素 累加 的 正 
式 公 式 为 : A-B -C+D。 如 果 用 cv: :Mat 方法 访问 像素 值 ， 公 式 可 转换 成 以 下 代码 : 

// 窗口 的 位 置 是 (xo,yo) ， 尺 寸 是 widthxheight 

return (integralImage.at<cv::Vec<T,N>>(yo+height,xo+width)-— 

integralImage.at<cv: :Vec<T,N>>(yo+height,xo)- 


integralImage.at<cv: :Vec<T,N>> (yo,xo+width)+ 
integralImage.at<cv: :Vec<T,N>> (yo,xXo)); 


不 管 是 感 兴趣 区 域 的 信 才 有 多 大 ， 使 用 这 种 方法 计算 的 复杂 度 是 恒定 不 变 的 。 注 意 , 为 了 简化 ， 
这 里 使 用 了 cv: :Mat 类 的 at 方法 ， 它 访问 像素 值 的 效率 并 不 是 最 高 的 (参见 第 2 章 )。4.8.3 节 
将 讨论 这 方面 的 内 容 ， 通 过 两 个 例子 说 明 积分 图 像 在 效率 上 的 优势 。 

















4.8.3 扩展 阅读 


积分 图 像 适合 用 来 执行 多 次 像素 累计 值 的 统计 。 本 段 将 通过 介绍 自 适应 阔 值 化 的 概念 ,说 明 
积分 图 像 的 使 用 方法 。 在 需要 快速 计算 多 个 窗口 的 直方 图 时 ， 积 分 图 像 非 常 有 用 。 本 节 也 将 对 此 
进行 解释 。 


1. 自 适应 的 闭 值 化 


通过 对 图 像 应 用 闵 值 来 创建 二 值 图 像 是 从 图 像 中 提取 有 意义 元 素 的 好 方法 ,假设 有 下 面 这 个 
关于 本 书 的 图 像 。 
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为 了 分 析 图 像 中 的 文字 ， 对 该 图 像 应 用 一 个 阐 值 ， 代 码 如 下 所 示 : 
// 使 用 固定 的 闽 什 


cv::Mat binaryFixed; 
cv::threshold(image,binaryFixed,70,255,cv::THRESH_BINARY); 


得 到 如 下 结果 。 








二 Fixed Threshold 一 口 

















实际 上 ,不管 选用 什么 阔 值 ， 图 像 都 会 丢失 一 部 分 文本 ,还 有 部 分 文本 会 消失 在 阴影 下 。 要 
解决 这 个 问题 ， 有 一 个 办 法 就 是 采用 局 部 闪 值 ， 即 根据 每 个 像素 的 邻 域 计算 冰 值 。 这 种 策略 称 为 
自 适应 阐 值 化 , 将 每 个 像素 的 值 与 邻 域 的 平均 值 进 行 比较 。 如 果 某 像素 的 值 与 它 的 局 部 平均 值 差 
别 很 大 ， 就 会 被 当 作 蜡 常 值 在 阔 值 化 过 程 中 剔除 。 





























因此 自 适 应 阔 值 化 需要 计算 每 个 像素 周围 的 局 部 平均 值 。 这 需要 多 次 计算 图 像 窗口 的 累计 
值 ， 可 以 通过 积分 图 像 提高 计算 效率 。 正 因为 如 此 ， 方 法 的 第 一 步 就 是 计算 积分 图 像 : 

// 计算 积分 图 像 

cv::Mat iimage; 

cv::integral (image,iimage,CV_ 325); 


现在 就 可 以 遍历 全 部 像素 ， 并 计算 方形 邻 域 的 平均 值 了 。 我 们 也 可 以 使 用 IntegralImage 
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类 来 实现 这 个 功能 , 但 是 这 个 类 在 访问 像素 时 使 用 了 效率 很 低 的 at 方法 。 根据 第 2 章 学 过 的 方法 ， 
我 们 可 以 使 用 指针 遍历 图 像 以 提高 效率 ,循环 代码 如 下 所 示 : 


int blockSize= 21; // 邻 域 的 尺寸 
int threshold=10; // 像素 将 与 (mean-threshold) 进 行 比较 


// 逐 行 
int halfSize= blockSize/2; 
for (int j=halfSize; j<nl-halfSize-1; j++) { 


// 得 到 第 j 行 的 地 址 

uchar* data= binary.ptr<uchar>(j); 

int* idatal= iimage.ptr<int>(j-halfSize); 
int* idata2= iimage.ptr<int>(j+halfSize+l1); 





// 一 个 线条 的 每 个 像素 
for (int i=halfSize; i<nc-halfSize-1; i++) { 
// 计算 累加 值 
int sum= (idata2[i+halfSize+1]-data2[i-halfSize]- 
idatal[i+halfSize+l1]+idatal[i-halfSizel]) 
/ (blockSize*blockSize); 


// 应 用 自 适 应 姜 值 
if (data[i]<(sum-threshold)) 
datal[lils "0 
else 
datal[li]=255; 
} 
} 


本 例 使 用 了 21x21 的 邻 域 。 为 计算 每 个 平均 值 , 我 们 需要 访问 界定 正方 形 邻 域 的 四 个 积分 像 
素 : 两 个 在 标 有 idatal 的 线条 上 ， 另 两 个 在 标 有 idata2 的 线条 上 。 将 当前 像素 与 计算 得 到 的 
平均 值 进行 比较 。 为 了 确保 被 剔除 的 像素 与 局 部 平均 值 有 明显 的 差距 , 这 个 平均 值 要 减 去 阔 值 ( 这 
里 设 为 10 )。 由 此 得 到 下 面 的 二 值 图 像 。 





Adaptive Threshold (integral = 口 
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很 明显 ， 这 比 用 固定 阔 值 得 到 的 结果 好 得 多 。 自 适应 阔 值 化 是 一 种 常用 的 图 像 处 理 技术 。 








OpenCV 中 也 实现 了 这 种 方法 : 





cv::adaptiveThreshold (image, // 输入 图 像 
binaryAdaptive, // 输出 二 值 图 像 
255., // 输出 的 最 大 值 
cvV: :ADAPTIVE_THRESH_MEAN_C，// 方法 
CV: :THRESH_BINARY, // 阅 值 类 型 
blockSize, // 块 的 大 小 
threshold); // 使 用 的 阅 值 








调用 这 个 函数 得 到 的 结果 与 使 用 积分 图 像 的 结果 完全 相同 。 另 外 , 除了 在 阔 值 化 中 使 用 局 部 
平均 值 ， 本 例 中 的 函数 还 可 以 使 用 高 斯 ( Gaussian ) 加 权 累 计 值 (该 方法 的 标志 为 ADAPTIVE_ 









































THRESH_GAUSSIAN_C )。 有 意思 的 是 ， 这 种 实现 方式 要 比 调用 cv: :adaptiveThreshold 
快 一 些 。 











稍微 


最 后 需要 注意 ,我们 也 可 以 用 OpenCy 的 图 像 运算 符 来 编写 自 适 应 阀 值 化 过 程 。 具 体 方法 如 




















下 所 示 : 


cv::Mat filtered; 

cv::Mat binaryFiltered; 

// boxFilter 计算 矩形 区 域内 像素 的 平均 值 

CVv: :boxFilter(image,filtered,CV_8U,cv::Size(blockSize,blockSize)); 
// 检查 像素 是 否 大 于 (mean + threshold) 

binaryFiltered= image>= (filtered-threshold); 


图 像 滤波 的 内 容 将 在 第 6 章 介绍 。 


2. 用 直方 图 实现 视觉 追踪 


通过 前 面 几 节 的 学 习 , 我 们 知道 可 用 直方 图 表示 物体 外 观 的 全 局 特征 。 本 节 将 搜寻 一 个 所 呈 











现 直方 图 与 目标 物体 相似 的 图 像 区 域 ， 演 示 如 何在 图 像 中 定位 物体 ， 以 此 说 明 积 分 图 像 的 月 











日 途 。 


我 们 在 4.6 节 实现 了 这 个 功能 ， 用 的 是 直方 图 反 向 投影 概念 和 通过 均值 偏 移 局 部 搜索 的 方法 。 这 








次 我 们 在 整 幅 图 像 上 显 式 地 搜索 具有 类 做 直方 图 的 区 域 ， 以 此 找到 物体 。 











由 0 和 1 组 成 的 二 值 图 像 生成 积分 图 像 是 一 种 特殊 情况 ,这 时 的 积分 累计 值 就 是 指定 区 域内 


值 为 1 的 像素 总 数 。 本 方 将 利用 这 一 现象 计算 灰 度 图 像 的 直方 图 。 
cv: :integral 函数 也 可 用 于 多 通道 图 像 。 你 可 以 充分 利用 这 点 ,用 积分 图 像 计 算 图 























图 层 图 像 : 


// 转换 成 二 值 图 层 组 成 的 多 通道 图 像 
// nPlanes 必须 是 2 的 震 
void convertToBinaryPlanes (const cv: :Mat& input, 





像 子 


区 域 的 直方 图 。 只 需 简单 地 把 图 像 转 换 成 由 二 值 平面 组 成 的 多 通道 图 像 ， 每 个 平面 关联 直方 图 
的 一 个 箱子 , 并 显示 哪些 像素 的 值 会 进入 该 箱子 。 下 面 的 函数 将 从 一 个 灰 度 图 像 创建 这 样 的 多 
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Cv::Mat& output, int nplanes) { 


// 需要 屏蔽 的 位 数 

int n= 8-static cast<int>( 
log(static_cast<double>(nPlanes))/1l0g(2.0)); 

// 用 来 消除 最 低 有 效 位 的 掩 码 


uchar mask= OxFF<<n; 


// 创建 二 值 图 像 的 向 量 
std: :Vector<cV: :Mat> planes; 
六 从 系 代 及 位 箱子 数 减 为 nBins 


:Mat reduced= input&mask; 





六 计算 每 个 二 值 图 像 平面 
for (int i=0; i<nPlanes; i++) { 





// 将 每 个 等 于 i<<shift 的 像素 设 为 1 
planes.push back( (reduced== (i<<n))¢&0x1); 
} 


// 创建 多 通道 图 像 


cv: :merge (planes,output); 





} 
你 也 可 以 把 积分 图 像 的 计算 过 程 封装 进 模板 类 中 : 


template <typename TT, 
class IntegralImage { 











int N> 


cv::Mat integrallImage; 
public: 


IntegralImage (cv::Mat image) { 

// 计算 积分 图 像 〈 很 耗 时 ) 

cv::integral (image, integralImage, 
cv::DataType<T>: :type); 

} 


// 通过 访问 四 个 像素 ， 


计算 任何 尺寸 子 区 域 的 累计 值 


CVv::Vec<T,N> operator() (int xo, 


int yo, int width, int height) { 


// ” (xo,yo) 处 的 窗口 ， 尺 寸 为 widthxheight 


return (integralImage.at<cv::Vec<T,N>>(yo+height,xo+width)-— 
integralImage.at<cv::Vec<T,N>>(yo+height,xo)- 
integralImage.at<cv::Vec<T,N>>(yo,xo+t+width)+ 
integralImage.at<cv: :Vec<T,N>> (yo,xo)); 
} 
je 
我 们 在 前 面 的 图 像 中 识别 出 了 骑 车 的 女孩 , 现在 要 在 后 面 的 图 像 中 找到 她 。 首先 计算 原始 图 





像 中 女孩 的 直方 图 , 这 可 通过 4.2 节 创 建 的 Histogram1D 类 实现 。 以 下 代码 将 生成 16 个 箱子 的 


直方 图 : 
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// 16 个 箱子 的 直方 图 
Histogram1D h; 
h.setNBins (16); 
// 计算 图 像 中 ROI 的 直方 图 


cv::Mat refHistogram= h.getHistogram(roi); 
这 个 直方 图 将 作为 基准 ， 在 下 面 的 图 像 中 定位 目标 ( 即 骑 车 的 女孩 )。 


假设 我 们 仅 知道 图 像 中 女孩 在 水 平方 向 移动 。 因 为 需要 对 不 同 的 位 置 计算 很 多 直方 图 , 我 们 
先 做 准备 工作 ， 即 计算 积分 图 像 。 参 见 以 下 代码 : 
// 首先 创建 16 个 平面 的 二 值 图 像 


cV: :Mat planes; 
convertToBinaryPlanes (secondIimage,planes,16); 


// 然后 计算 积分 图 像 


IntegralImage<float,16> intHistogram(planes); 
执行 搜索 时 , 循环 遍历 可 能 出 现 目 标的 位 置 ， 并 将 它 的 直方 图 与 基准 直方 图 做 比较 , 目的 是 
找到 与 直方 图 最 相似 的 位 置 ， 参 见 以 下 代码 : 












































double maxSimilarity=0.0; 
int xbest, ybest; 
// 遍历 原始 图 像 中 女孩 位 置 周围 的 水 平 长 条 
for (int y=110; y<120; y++) { 
for (int x=0; x<secondImage.cols-width; x++) { 


// 用 积分 图 像 计 算 16 个 箱子 的 直方 图 

histogram= intHistogram(x,y,width,height); 

// 计算 与 基准 直方 图 的 差距 

double distance= cv::compareHist (refHistogram, 
histogram, 
CV_COMP_INTERSECT); 

// 找到 最 相似 直方 图 的 位 置 


if (distance>maxSimilarity) { 


xbest= x; 
ybest= y; 
maxSimilarity= distance; 
} 
} 
} 
// 在 最 准确 的 位 置 画 矩形 
Cv::rectangle(secondImage, cv::Rect (xbest,ybest,width,height),0)); 


然后 就 可 确定 直方 图 最 相似 的 位 置 ， 如 下 图 所 示 。 
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虱 引 Object location 























白色 矩 形 表示 搜索 的 区 域 。 计算 区 域内 部 所 有 窗口 的 直方 图 。 这 里 的 窗口 尺寸 是 固定 的 , 但 
是 更 好 的 做 法 是 也 搜索 稍 小 或 稍 大 的 窗口 , 以便 应 对 缩放 比例 可 能 带 来 的 变动 有 一 点 需要 注意 ， 
为 了 降低 计算 复杂 度 ， 要 减少 直方 图 中 要 计算 的 箱子 数量 。 本 例 减少 到 16 个 箱子 。 因 此 ， 在 这 
个 多 平面 图 像 中 , 平面 0 包含 一 个 二 值 图 像 ， 表 示 值 从 0 到 15 的 所 有 像素 ; 平面 1 表示 值 从 16 























到 31 的 全 部 像素 ， 等 等 。 





对 物体 的 搜索 过 程 包含 了 用 预定 范围 的 像素 ,计算 指定 尺寸 的 所 有 窗口 的 直方 图 的 计算 过 


程 ， 这 意味 着 从 积分 图 像 对 3200 个 直方 图 进行 了 高 效 计算 。In 








tegralImage 类 返回 的 直方 图 





都 存储 在 cv: :Vec 对 象 中 ( 因为 用 了 at 方法 )。 然后 用 cv: :compareHist 了 清 数 找到 最 相似 的 

















直方 图 ( 和 大 多 数 OpenCV 函数 一 样 , 这 个 函数 可 以 利用 实用 的 通用 参数 类 型 cv: : InputArray 





获得 cv Mat 或 CYSVee )。 


4.8.4 参阅 


口 14.3 节 将 介绍 如 何 用 积分 图 像 计算 Haar 特征 。 





口 5.4 贡 将 介绍 另 一 种 运算 符 ， 所 得 结果 与 前 面 介绍 的 自 适 应 


口 第 8 章 将 讲述 SURF 运算 符 ， 它 也 基于 对 积分 图 像 的 使 用 。 


Y 阐 值 化 算法 非常 接近 。 


口 A. Adam、E. Rivlin 和 I. Shimshoni 于 2006 年 发 表 在 Proceedings of the Int. Conference on 


Computer Vision and Pattern Recognition 第 798 页 至 第 805 页 的 文章 “Robust Fragments-based 
Tracking using the Integral Histogram” 介 绍 了 一 种 有 趣 的 方法 ， 利 用 积分 图 像 在 一 个 图 像 


队列 中 跟踪 物体 。 











本 章 包括 以 下 内 容 : 


D 用 形态 学 滤波 器 腐蚀 和 膨胀 图 像 ; 
口 用 形态 学 滤波 器 开启 和 闭合 图 像 ; 
口 在 灰 度 图 像 中 应 用 形态 学 运算 ; 
口 用 分 水 岭 算 法 实现 图 像 分 割 |; 

口 用 MSER 算法 提取 特征 区 域 。 














5.1 简介 


数学 形态 学 是 一 门 20 世纪 60 年 代 发 展 起 来 的 理论 , 用 于 分 析 和 处 理 离散 图 像 。 它 定义 了 一 
系列 运算 ， 用 预先 定义 的 形状 元 素 探测 图 像 ， 从 而 实现 图 像 的 转换 。 这 个 形状 元 素 与 像素 邻 域 的 
相交 方式 决定 了 运算 的 结果 。 本 章 将 介绍 几 种 最 重要 的 形态 学 运算 , 并 探讨 用 基于 形态 学 运算 的 
算法 进行 图 像 分 割 和 特征 检测 的 问题 。 














5.2 用 形态 学 滤波 器 腐蚀 和 膨胀 图 像 


腐蚀 和 膨胀 是 最 基本 的 形态 学 运算 , 因此 把 它们 放 在 第 一 节 介 绍 。 数 学 形态 学 中 最 基本 的 概 
念 是 结构 元 素 。 结 构 元 素 可 以 简单 地 定义 为 像素 的 组 合 ( 下 图 的 正方 形 )， 在 对 应 的 像素 上 定义 
了 一 个 原点 〈 也 称 锚 点 )。 形态 学 滤波 器 的 应 用 过 程 就 包含 了 用 这 个 结构 元 素 探 测 图 像 中 每 个 像 
素 的 操作 过 程 。 把 某 个 像素 设 为 结构 元 素 的 原点 后 ,结构 元 素 和 图 像 重 全 部 分 的 像素 集 ( 下 图 的 
九 个 阴影 像素 ) 就 是 特定 形态 学 运算 的 应 用 对 象 。 结构 元 素 原则 上 可 以 是 任何 形状 , 但 通常 是 
个 简单 形状 ， 如 正方 形 、 圆 形 或 蒙 形 ,并且 把 中 心 点 作为 原点 。 自 定义 结构 元 素 可 用 于 强化 或 消 
除 特 殊 形 状 。 
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5.2.1 准备 工作 | 


因为 形态 学 滤波 器 通常 作用 于 二 值 图 像 ， 所 以 我 们 采用 4.2 节 通 过 阐 值 化 创建 的 二 值 图 像 。 
但 在 形态 学 中 , 我 们 习惯 用 高 像素 值 (白色 ) 表示 前 景物 体 , 用 低 像素 值 ( 黑色 ) 表示 背景 物体 ， 
因此 对 图 像 做 了 反 向 处 理 。 


在 形态 学 术语 中 ， 下 面 的 图 像 称 为 第 4 章 所 建 图 像 的 补 码 。 

































































5.2.2 ”如 何 实现 


OpenCV 用 简单 的 函数 实现 了 腐蚀 和 膨胀 运算 ， 它 们 分 别 是 cv:erode 和 cv:dilate， 用 法 
也 很 简单 : 














// 读 取 输入 图 像 


cv::Mat image= cv::imread("binary.bmp"); 





// 腐蚀 图 像 
// 采用 默认 的 3x3 结构 元 素 
cv::Mat eroded; // 目标 图 像 








让 
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% 





cv: :erode (image,eroded,cv: :Mat ()); 


// 膨胀 图 像 
cv::Mat dilated; // 目标 图 像 
cv::dilate(image,dilated,cv::Mat ()); 


这 些 函 数 生成 的 两 幅 图 像 如 下 所 示 。 左 图 为 腐蚀 图 像 ， 右 图 为 膨胀 图 像 。 



































团 | Eroded Image > xX 团 | Dilated Image 去 : Xx 











5.2.3 ”实现 原理 


和 所 有 形态 学 滤波 器 一 样 ， 本 节 的 两 个 滤波 器 的 作用 范围 是 由 结构 元 素 定义 的 像素 集 。 在 某 
个 像素 上 应 用 结构 元 素 时 ， 结 构 元 素 的 锚 点 与 该 像素 对 齐 ， 所 有 与 结构 元 素 相 交 的 像素 就 包含 在 
当前 集合 中 。 腐蚀 就 是 把 当前 像素 替换 成 所 定义 像素 集合 中 的 最 小 像素 值 ; 膨胀 是 腐蚀 的 反 运 算 ， 
它 把 当前 像素 蔡 换 成 所 定义 像素 集合 中 的 最 大 像素 值 。 由 于 输入 的 二 值 图 像 只 包含 黑色 ( 值 为 0 ) 
和 白色 ( 值 为 255 ) 像素 ， 因 此 每 个 像素 都 会 被 替换 成 白色 或 黑色 像素 。 


要 形象 地 理解 这 两 种 运算 的 作用 ， 可 考虑 背景 (黑色 ) 和 前 景 (白色 ) 的 物体 。 腐 蚀 时 ， 如 
果 结 构 元 素 放 到 某 个 像素 位 置 时 碰 到 了 背景 ( 即 交 集中 有 一 个 像素 是 黑色 的 )， 那 么 这 个 像素 就 
变 为 背景 ; 膨胀 时 ， 如 果 结 构 元 素 放 到 某 个 背景 像素 位 置 时 磁 到 了 前 景物 体 , 那么 这 个 像素 就 被 
标 为 白色 。 正 因 如 此 ， 图 像 腐 蚀 后 物体 尺寸 会 缩小 ( 形状 被 腐蚀 )， 而 图 像 膨 胀 后 物体 会 扩大 。 
在 腐蚀 图 像 中 ， 有 些 面 积 较 小 的 物体 ( 可 看 作 背 景 中 的 “噪声 ”像素 ) 会 彻底 消失 。 与 之 类 似 ， 
膨胀 后 的 物体 会 变 大 ,而 物体 中 一 些 “ 空 除 ” 会 被 填 满 。OpenCYV 默认 使 用 3x3 正方 形 结构 元 素 。 
在 调用 琢 数 时 ， 参 考 前 面 的 例子 将 第 三 个 参数 指定 为 空 矩阵 ( 即 cv: :Mat () )， 就 能 得 到 默认 的 
结构 元 素 。 你 也 可 以 通过 提供 一 个 矩阵 来 指定 结构 元 素 的 大 小 〈 以 及 形状 )， 和 矩阵 中 的 非 零 元 素 
将 构成 结构 元 素 。 下 面 的 例子 使 用 7x7 的 结构 元 素 : 

// 用 更 大 的 结构 元 素 腐 蚀 图 像 


// 创建 7x7 的 mat 变量 ， 其 中 全 部 元 素 都 为 1 
cv::Mat element (7,7,CV_8U,cv::Scalar(1)); 
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// 用 这 个 结构 元 素 腐蚀 图 像 


cv::erode (image,eroded,element); 


这 次 的 结果 更 有 破坏 性 ， 如 下 图 所 示 。 

















团 | Eroded Image (7x7) 一 xX 























还 有 一 种 方法 也 能 得 到 类 似 的 结果 , 就 是 在 图 像 上 反复 应 用 同一 个 结构 元 素 。 这 两 个 函数 都 
有 一 个 用 于 指定 重复 次 数 的 可 选 参数 : 

// 腐蚀 图 像 三 次 

cv::erode(image,eroded,cv::Mat (),cv::Point(-1,-1),3); 

参数 cv: : Point (-1, -1) 表 示 原 点 是 矩阵 的 中 心 点 (默认 值 ), 也 可 以 定义 在 结构 元 素 上 的 
其 他 位 置 。 由 此 得 到 的 图 像 与 使 用 7x7 结构 元 素 得 到 的 图 像 是 一 样 的 。 实际 上 ,对 图 像 腐蚀 两 次 
相当 于 对 结构 元 素 自身 膨胀 后 的 图 像 进行 腐蚀 。 这 个 规则 也 适用 于 膨胀 。 
























































最 后 ， 鉴 于 前 景 /背景 概念 有 很 大 的 随意 性 ， 我 们 可 得 到 以 下 的 实验 结论 ( 这 是 腐蚀 /膨胀 运 
算 的 基本 性 质 )。 用 结构 元 素 腐 蚀 前 景物 体 可 看 作对 图 像 背景 部 分 的 膨胀 ， 也 就 是 说 : 



































口 腐蚀 图 像 相 当 于 对 其 反 色 图 像 膨胀 后 再 取 反 色 ; 
口 膨胀 图 像 相 当 于 对 其 反 色 图 像 腐 蚀 后 再 取 反 色 。 












































5.2.4 扩展 阅读 

虽然 这 里 将 形态 学 滤波 器 应 用 在 了 二 值 图 像 上 , 但 这 些 滤 波 器 也 能 应 用 在 灰 度 图 像 , 甚至 彩 
色 图 像 上 ， 并且 方法 的 定义 是 相同 的 。5.3 节 将 介绍 几 种 形态 学 运算 符 以 及 用 它们 处 理 灰 度 图 像 
的 效果 。 

另外 ，OpenCy 的 形态 学 函数 支持 就 地 处 理 。 这 意味 着 输入 图 像 和 输出 图 像 可 以 采用 同一 个 
变量 ， 如 下 所 示 : 
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cv::erode (image, image,cv::Mat ()); 


OpenCV 会 创建 必需 的 临时 图 像 ， 从 而 保证 这 种 方法 能 正常 运行 。 








5.2.5 ”参阅 


D 5.3 节 将 按 顺序 使 用 腐蚀 和 膨胀 滤波 器 ， 产 生 新 的 运算 符 。 
口 5.4 届 将 在 灰 度 图 像 上 应 用 其 他 形态 学 滤波 器 。 























5.3 用 形态 学 滤波 器 开局 和 闭合 图 像 


上 一 节 介 绍 了 两 种 基本 的 形态 学 运算 : 腐蚀 和 膨胀 。 我 们 可 以 利用 它们 定义 新 的 运算 。 接 下 
来 的 两 节 将 讲解 其 中 的 几 种 运算 ， 本 节 将 讲解 开启 和 闭合 运算 。 














5.3.1 如 何 实现 

为 了 应 用 较 高 级 别 的 形态 学 滤波 器 ， 需 要 用 cv: :morphologyEx 国 数 ， 并 传人 对 应 的 函数 
代码 。 例 如 下 面 的 调用 方法 将 适用 于 闭合 运算 : 

// 闭合 图 像 


cV: :Mat element5(5,5,CV_8U,cv::Scalar(1))， 
cv::Mat closed; 





























cv: :morphologyEx (image,closed, // 输入 和 输出 的 图 像 
cvV::MORPH_CLOSE，,， // 运算 符 
element5); // 结构 元 素 


注意 ,为 了 证 滤波 器 的 效果 更 加 明显 ,这 里 使 用 了 5x5 的 结构 元 素 。 如 果 输 入 上 节 的 二 值 图 
像 ， 将 得 到 如 下 所 示 的 图 像 。 




















转 习 Closed Image 一 


das xX 


nh 
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与 之 类 似 ， 应 用 形态 学 开启 运算 后 将 得 到 如 下 图 像 。 

















看 了 Opened Image xX 





得 到 上 面 图像 的 代码 是 : 


cv::Mat opened; 
cvV: :morphologyEx (image, opened, cv::MORPH_OPEN, element5); 








5.3.2 ”实现 原理 


开启 和 闭合 滤波 器 的 定义 只 与 基本 的 腐蚀 和 膨胀 运算 有 关 : 闭合 的 定义 是 对 图 像 先 膨胀 后 腐 
蚀 ， 开 启 的 定义 是 对 图 像 先 腐蚀 后 膨胀 。 


因此 可 以 用 以 下 方法 对 图 像 做 闭合 运算 : 
// 膨 腾 原 图 像 


cv::dilate(image, result, cv::Mat()); 
// 就 地 腐蚀 膨胀 后 的 图 像 


Cv::erode(result, result, cv::Mat()); 
调换 这 两 个 函数 的 调用 次 序 ， 就 能 得 到 开启 滤波 器 。 
查看 闭合 滤波 器 的 结果 , 可 看 到 白色 的 前 景物 体 中 的 小 空 际 已 经 被 填 满 。 闭合 滤波 器 也 会 把 


UL 


邻近 的 物体 连接 起 来 。 基本 上 , 所 有 小 到 不 能 容纳 完整 结构 元 素 的 空 际 或 间隙 都 会 被 闭合 滤波 带 


















































与 闭合 滤波 器 相反 , 开启 滤 波 器 消除 了 背景 中 的 几 个 小 物体 。 所 有 人 小 到 不 能 容纳 完整 结构 元 
素 的 物体 都 会 被 移 除 。 


这 些 滤 波 器 常用 于 目标 检测 。 闭 合 滤波 器 可 把 错误 分 裂 成 小 碎片 的 物体 连接 起 来 ,而 开启 滤 
波 器 可 以 移 除 因 岁 像 噪声 产生 的 斑点 。 因 此 最 好 按 一 定 的 顺序 调用 这 些 滤波 器 。 如 果 优 先 考虑 过 
滤 噪 声 ， 可 以 先 开启 后 闭合 ， 但 这 样 做 的 坏处 是 会 消除 掉 部 分 物体 碎片 。 
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先 使 用 开启 滤波 器 ， 再 使 用 闭合 滤波 器 ， 会 得 到 如 下 结 
































是 〗Opened|Closed Image 兰 XxX 




















注意 ， 对 一 幅 图 像 进行 多 次 同样 的 开启 运 算是 没有 作用 的 〈 闭合 运算 也 一 样 )。 事实 上 ， 
为 第 一 次 使 用 开启 滤波 需 时 已 经 填充 了 空隙, 再 使 用 同一 个 滤波 顺 将 不 会 使 图 像 产生 变化 。 用 数 















































学 术语 讲 ， 这 些 运 算是 震 等 (idempotent ) 的 。 


5.3.3 ”参阅 


口 在 提取 图 像 中 的 连通 组 件 前 ， 通 常 要 用 开启 和 闭合 运算 来 清理 图 像 。7.5 节 将 详细 解释 
这 点 。 














5.4 在 灰 度 图 像 中 应 用 形态 学 运算 


本 章 介绍 的 多 种 基本 形态 学 滤波 器 可 以 组 合 起 来 , 形成 高 级 形态 学 运算 。 本 节 将 介绍 两 种 形 
态 学 运算 ,将 它们 应 用 于 灰 度 图 像 上 可 以 检测 图 像 的 特征 。 




















5.4.1 ”如 何 实现 


形态 学 梯度 运算 可 以 提取 出 图 像 的 边缘 ， 具 体 方 法 为 使 用 cv: :morphologyEx 函数 ， 代 码 
如 下 所 示 : 

// 用 3x3 结构 元 素 得 到 梯度 图 像 

cv::Mat result; 


cv: :morphologyEx(image, result, 
Cv: :MORPH_GRADIENT, cv::Mat()); 


得 到 图 像 中 物体 的 轮廓 为 方便 观察 ， 对 图 像 做 了 反 色 处 理 )。 
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丰 了 Edge Image 














另 一 种 很 实用 的 形态 学 运算 是 项 帽 (hat-top ) 变换 ， 它 可 以 从 图 像 中 提取 出 局 部 的 小 型 前 景 
物体 。 为 了 说 明 该 运算 的 效果 ,我 们 用 本 书 中 一 页 的 照片 做 试验 。 由 图 可 知 ， 页 面 的 光照 并 不 均 
匀 。 通 过 使 用 cv: :morphologyEx 限 数 并 采用 正确 的 参数 ， 可 以 调用 黑 帽 变换 提取 出 页 面 上 的 
文字 (作为 前 景物 体 ): 


// 使 用 7x7 结构 元 素 做 黑 帆 变换 
> CV SU "CV Saalar(l)) 
cV: :morphologyEx(image, result, cv::MORPH_ BLACKHAT, element7) 

















cv::Mat element7 (7 


果 如 下 图 所 示 ， 它 可 以 从 图 像 中 提取 出 大 部 分 文字 。 














运行 结 





败 二 7x7 Black Top-hat Image 











法 , 就 是 把 图 像 看 作 是 一 个 拓扑 地 貌 , 不 同 
明亮 的 区 域 代 表 高 山 ， 黑 上 暗 的 区 域 代表 








5.4.2 ”实现 原理 
学 运算 在 灰 度 图 像 上 的 效果 有 一 个 好 办 法 
这 种 观点 ， 


理解 形态 
的 灰 度 级 别 代表 不 同 的 高 度 (或 海拔 )。 基 于 这 种 观点 





ba 


108 ”第 5 章 用 形态 学 运算 变换 图 像 








深谷 ; 边缘 相当 于 黑暗 和 明亮 像素 之 间 的 快速 过 渡 ,， 因 此 可 以 比 作 陡 峭 的 悬 岩 。 腐 蚀 这 种 地 形 的 
最 终结 果 是 : 每 个 像素 被 替换 成 特定 邻 域内 的 最 小 值 ， 从 而 降低 它 的 高 度 。 结 果 是 悬 岩 “ 缩 小 ”， 
山谷 “扩大 ”。 膨 胀 的 效果 刚好 相反 ， 即 悬崖 “扩大 ”, 山谷 “缩小 "。 但 不 管 哪 种 情况 , 平地 ( 即 
强度 值 固定 的 区 域 ) 都 会 相对 保持 不 变 。 


根据 这 个 结论 ， 可 以 得 到 一 种 检测 图 像 边缘 (或 悬崖 ) 的 简单 方法 ， 即 通过 计算 膨胀 后 的 
像 与 腐蚀 后 的 图 像 之 间 的 的 差距 得 到 边缘 。 因 为 这 两 种 转换 后 图 像 的 差别 主要 在 边缘 地 带 , 所 以 
相 减 后 会 突出 边缘 。 在 cv: :morphologyEx 函数 中 输入 cv: :MORPH_GRADIENT 参数 ， 即 可 实 
现 此 功能 。 显 然 ， 结 构 元 素 越 大 ， 检 测 到 的 边缘 就 越 宽 。 这 种 边缘 检测 运算 称 为 Beucher 梯度 
(下 一 章 将 详细 讨论 图 像 梯度 的 概念 ), 注意 还 有 两 种 简单 的 方法 能 得 到 类 似 结果 ， 即 用 膨胀 后 的 
图 像 减 去 原始 图 像 ， 或 者 用 原始 图 像 减 去 腐蚀 后 的 图 像 ， 那 样 得 到 的 边缘 会 更 罕 。 


顶 帽 运算 也 基于 图 像 比 对 , 它 使 用 了 开启 和 闭合 运算 。 因 为 灰 度 图 像 进 行 形态 学 开启 运算 时 
会 先 对 图 像 进 行 腐蚀 ， 局 部 的 尖锐 部 分 会 被 消除 ， 其 他 部 分 则 将 保留 下 来 。 因 此 ， 原 始 图 像 和 经 
过 开启 运算 的 图 像 的 比 对 结果 就 是 局 部 的 尖锐 部 分 。 这 些 尖锐 部 分 就 是 我 们 需要 提取 的 前 景 
体 。 对 于 本 书 的 照片 来 说 ,前 景物 体 就 是 页 面 上 的 文字 。 因 为 书本 为 白 底 黑 字 ， 所 以 我 们 采用 它 
的 互补 运算 , 即 黑 帽 算法 。 它 将 对 图 像 做 闭合 运算 ,然后 从 得 到 的 结果 中 减 去 原始 图 像 。 这 里 采 
用 7x7 的 结构 元 素 ， 它 足够 大 了 ， 能 确保 移 除 文字 。 


三 这 


本 和 







































































5.4.3 ”参阅 


口 6.5 节 将 介绍 用 于 检测 边缘 的 其 他 滤波 器 。 

口 J.-F. Rivest、P Soille 和 S. Beucher 于 1992 年 发 表 在 TSETS symposium on electronic imaging 
science and technology, SPIE 2 月 刊 上 的 文章 “The Morphological gradients” 详 细 论述 了 形 
态 学 梯度 的 概念 。 

口 R. Laganiere 于 1998 年 发 表 在 Pattern Recognition 11 月 第 31 卷 的 文章 “The article Morphological 

operator for corner detection” 介 绍 了 如 何 用 形态 学 滤波 运算 检测 角 点 。 








5.5 用 分 水 岭 算法 实现 图 像 分 割 


分 水 岭 变 换 是 一 种 流行 的 图 像 处 理 算法 , 用 于 快速 将 图 像 分 割 成 多 个 同 质 区 域 。 它 基于 这 样 
的 思想 : 如 果 把 图 像 看 作 一 个 拓扑 地 貌 ， 那么 同类 区 域 就 相当 于 陡峭 边缘 内 相对 平坦 的 盆地 。 分 
水 岭 算法 通过 逐步 增高 水 位 ,把 地 貌 分 割 成 多 个 部 分 。 因 为 算法 很 简单 , 它 的 原始 版 本 会 过 度 分 
制图 像 ， 产生 很 多 小 的 区 域 。 因此 OpenCV 提出 了 该 算法 的 改进 版 本 , 使 用 一 系列 预定 义 标 记 来 
引导 图 像 分 割 的 定义 方式 。 
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5.5.1 如 何 实现 


使 用 分 水 岭 分 割 法 需要 调用 cv: :watershed 函数 。 该 函 数 的 输入 对 象 是 一 个 标记 图 像 ， 图 
像 的 像素 值 为 32 位 有 符号 整数 ， 每 个 非 零 像素 代表 一 个 标签 。 它 的 原理 是 对 图 像 中 部 分 像素 做 
标记 , 表明 它们 的 所 属 区 域 是 已 知 的 。 分 水 岭 算法 可 根据 这 个 初始 标签 确定 其 他 像素 所 属 的 区 域 。 
本 节 将 先 建立 一 个 标记 图 像 作为 灰 度 图 像 ， 然 后 将 其 转换 成 整 型 图 像 。 我 们 把 这 个 步 又 封装 进 
WatershedSegmenter 类 ， 它 包括 指定 标记 图 像 和 计算 分 水 岭 的 方法 : 







































































class WatershedSegmenter { 


private: 
cv::Mat markers; 


public: 
void setMarkers (const cv::Mat& markerImage) { 


// 转换 成 整数 型 图 像 
markerIimage.convertTo (markers,CV_ 325); 


1 
Cv::Mat process(const cv::Mat &image) { 


// 应 用 分 水 岭 
cv::watershed (image,markers); 
return markers; 


} 

不 同 应 用 程序 获得 标记 的 方式 各 不 相同 。 例 如 , 可 在 预 处 理 过 程 中 识别 出 一 些 属于 某 个 感 兴 
趣 物体 的 像素 。 然 后 ,根据 初始 检测 结果 ,使 用 分 水 岭 算法 划 出 整个 物体 的 边缘 。 本 节 将 利用 本 
章 一 直 使 用 的 二 值 图 像 ， 识别 出 对 应 原始 图 像 中 的 动物 (原始 图 像 见 4.2.1 节 )。 因此, 我们 需要 
从 二 值 图 像 中 识别 出 属于 前 景 (动物 ) 的 像素 以 及 属于 背景 ( 主要 是 草地 ) 的 像素 。 这 里 把 前 景 
像素 标记 为 255 ,把 背景 像素 标记 为 128( 该 数字 是 随意 选择 的 ,任何 不 等 于 255 的 数字 都 可 以 )。 
其 他 像素 的 标签 是 未 知 的 ， 标 记 为 0。 

现在 ， 这 个 二 值 图 像 包 含 了 属于 图 像 不 同 部 分 的 白色 像素 ， 因 此 要 对 图 像 做 深度 腐蚀 运算 ， 

只 保留 明显 属于 前 景物 体 的 像素 : 
// 消除 噪声 和 细小 物体 


cv::Mat fg; 
Cv::erode (binary,fg,cv::Mat(),cv::Point(-1,-1),4); 


































































































得 到 的 图 像 如 下 所 示 。 
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国 Foreground Image 一 xX 
注意 ,仍然 有 少量 属于 背景 (森林 ) 的 像素 保留 了 下 来 ,不 用 管 它 们 ， 可 将 它们 看 作 感 兴 




















物体 。 与 之 类 似 ， 我 们 可 以 通过 对 原 二 值 图 像 做 一 次 大 幅 
// 标识 不 含 物体 的 图 像 像素 








度 的 膨胀 运算 来 选中 一 


些 背 景 


像素 : 





,4); 


cv::Mat bg; 

cv::dilate(binary,bg,cv::Mat(),cv::Point(-1,-1) 

cv::threshold(bg,bg,1,128,cv: :THRESH_BINARY_INV); 
应 背景 














得 到 的 黑色 像素 对 应 


得 到 的 图 像 如 下 所 示 。 


月 尿 


像素 。 因 此 在 膨胀 后 ， 要 立即 通 


过 阔 值 化 运算 把 它们 赋值 为 128。 





夯 了 Background Image 

















合并 这 两 幅 图 像 ， 
// 创建 标记 图 像 


cv::Mat markers (binatry.sSize() 
markers= fg+bg; 


注意 这 里 是 如 何 用 重 载 运算 符 + 来 合并 图 像 的 。 下 面 的 


得 到 标记 





图 像 ， 代 码 为 : 





"QV_8U ,CviroGalar(t0) 








ya 





图 像 将 被 输入 分 水 岭 算法 。 
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由 引 Markers 一 口 xX 




















毫 无 疑问 ,在 这 个 输入 图 像 中 ,白色 区 域 属于 前 景物 体 ， 灰色 区 域 属于 背景 ,而 黑色 区 域 带 5 
有 未 知 标签 。 分水岭 算法 的 作用 就 是 明确 地 划分 前 景 和 背景 ,并 对 黑色 区 域 的 像素 做 出 标记 ( 属 
于 前 景 还 是 背景 )。 可 用 下 面 的 方法 来 分 割 图 像 : 

// 创建 分 水 岭 分 定 类 的 对 象 


WatershedSegmenter segmenter; 























// 设置 标记 图 像 ， 然 后 执行 分 割 过 程 
segmenter.setMarkers (markers); 
segmenter.process (image); 


上 面 的 代码 会 修改 标记 图 像 , 每 个 值 为 0 的 像素 都 会 被 赋予 一 个 输入 标签 ,而 边缘 处 的 像素 
被 赋值 为 -1， 得 到 的 标签 图 像 如 左 图 所 示 ， 边 缘 图 像 如 右 图 所 示 。 




















= xX 砷 也 Watersheds 一 xX 














轿 Segmentation 








5.5.2 ”实现 原理 
跟前 面 几 节 一 样 , 我 们 在 描述 分 水 岭 算法 时 用 拓扑 地 图 来 做 类 比 。 用 分 水 岭 算法 分 制图 像 的 
原理 是 从 高 度 0 开始 逐步 用 洪水 淹没 图 像 。 当 “水 ”的 高 度 逐 步 增加 时 (到 1、2、3 等 )， 会 形 
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成 聚 水 的 盆地 。 随 着 盆地 面积 逐步 变 大 , 两 个 岔 地 的 水 最 终 会 汇合 到 一 起 。 这 时 就 要 创建 一 个 分 水 
岭 ， 用 来 分 割 这 两 个 盆地 。 当 水 位 达到 最 大 高 度 时 ， 创 建 的 盆地 和 分 水 岭 就 组 成 了 分 水 岭 分 割 图 。 


可 以 想象 , 在 水 淹 过 程 的 开始 阶段 会 创建 很 多 细小 的 独立 盆地 。 当 所 有 盆地 汇合 时 ， 就 会 创 
建 很 多 分 水 岭 线条 ， 导 致 图 像 被 过 度 分 割 。 要 解决 这 个 问题 ， 就 要 对 这 个 算法 进行 修改 ,使 水 流 
过 程 从 一 组 预先 定义 好 的 标记 像素 开始 。 每 个 用 标记 创建 的 盆地 , 都 按照 初始 标记 的 值 加 上 标签 。 
如 果 两 个 标签 相同 的 盆地 汇合 ， 就 不 创建 分 水 岭 ， 以 避免 过 度 分 割 。 调 用 cv: :watershed 函数 
时 就 执行 了 这 些 过 程 。 输 入 的 标记 图 像 会 被 修改 , 用 以 生成 最 终 的 分 水 岭 分 割 图 。 输 入 的 标记 图 
像 可 以 含有 任意 数值 的 标签 ,未 知 标签 的 像素 值 为 0。 标 记 图 像 的 类 型 选用 32 位 有 符号 整数 ， 
以 便 定 义 超 过 255 个 的 标签 。 另 外 ， 可 以 把 分 水 岭 的 对 应 像素 设 为 特殊 值 -1。 


为 了 方便 显示 结果 , 我 们 采用 两 种 特殊 方法 。 第 一 种 方法 返回 由 标签 组 成 的 图 像 ( 包含 值 为 
0 的 分 水 岭 ) 该 方法 通过 阔 值 化 很 容易 实现 ， 代 码 如 下 所 示 : 


// 以 图 像 的 形式 返回 结果 
Cv::Mat getSegmentation() { 




















QVvitMab tmp 
// 所 有 标签 值 大 于 255 的 区 段 都 赋值 为 255 


markers.convertTo (tmp,CV_8U); 


return tmp; 


} 
与 之 类 似 ， 第 二 种 方法 返回 一 幅 图 人像， 图像 中 分 水 岭 线条 赋值 为 0， 其 他 部 分 赋值 为 255。 
这 次 用 cv: :convertTo 方法 来 获得 结果 ， 代 码 如 下 所 示 : 


// 以 图 像 的 形式 返回 分 水 岭 
cv::Mat getWatersheds() { 








cv::Mat tmp; 
// 在 变换 前 ， 把 每 个 像素 p 转换 为 255p+255 
markers.convertTo(tmp,CV_8U,255,255); 


return tmp; 


} 
在 变换 前 对 图 像 做 线性 转换 ， 使 值 为 -1 的 像素 变 为 0( 因为 -1*255+255=0 )。 


值 大 于 255 的 像素 赋值 为 255。 这 是 因为 将 有 符号 整数 转换 成 无 符号 字符 型 时 ， 应 用 了 饱 
和 度 运算 。 





5.5.3 扩展 阅读 


很 明显 ,可 以 用 多 种 方法 获得 标记 图 像 。 例 如 ,用户 可 以 交互 式 地 在 场景 中 的 物体 和 背景 
绘制 区 域 ,以 标注 物体 。 或者， 当 需 要 标识 的 物体 位 于 图 像 中 间 时 ,可 以 简单 地 在 输入 图 像 的 中 
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心 位 置 标记 特定 标签 ,在 图 像 的 边缘 位 置 〈 假 设 背景 在 边缘 位 置 ) 标记 上 男 一 个 标签 。 在 创建 标 
记 图 像 时 ， 可 以 在 标记 图 像 上 绘制 加 粗 的 矩形 : 


// 标识 背景 像素 


CV : 
CV : 


Xi 
// 


CV : 





:Mat :imageMask (image.size(),CV_8U,cv::Scalar(0)); 
:rectangle (imageMask,cv::Point(5,5), 


cv::Point (image.cols-5, image.rows-5), 
evs8calar(255); 3)s 

标识 前 景 像素 

(在 图 像 的 中 心 ) 





:rectangle (imageMask, 


Cv::Point (image.cols/2-10,image.rows/2-10), 
cv::Point (image.cols/2+10,image.rows/2+10), 
cv::Scalar(1), 10); 


如 果 把 这 个 标记 图 像 套 加 到 实验 图 像 上 ， 将 得 到 下 面 的 图 像 。 














转 a Image with marker 








这 幅 图 像 是 分 水 岭 算 法 得 到 的 结果 。 














由 刀 Watershed 二 XxX 
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5.5.4 ”参阅 


口 C. Vachier 和 下 . Meyer 于 2005 年 发 表 在 Journal of Mathematical Imaging and Vision 5 月 第 
22 卷 第 2 期 和 第 3 期 上 的 文章 “The viscous watershed transform” 提 供 了 有 关于 分 水 岭 转 
换 的 更 多 信息 。 











5.6 用 MSER 算 法 提取 特征 区 域 


上 一 节 介 绍 了 如 何 通 过 逐步 水 淹 并 创建 分 水 岭 , 把 图 像 分 割 成 多 个 区 域 。 最 大 稳定 外 部 区 域 
( MSER ) 算法 也 用 相同 的 水 汉 类 比 ， 以 便 从 图 像 中 提取 有 意义 的 区 域 。 创 建 这 些 区 域 时 也 使 用 
逐步 提高 水 位 的 方法 ,但 是 这 次 我 们 关注 的 是 在 水 渡 过 程 中 的 某 段 时 间 内 , 保持 相对 稳定 的 盆地 。 
可 以 发 现 ， 这 些 区 域 对 应 着 图 像 中 某 些 物体 的 特殊 部 分 。 











5.6.1 如何 实 现 


计算 图 像 MSER 的 基础 类 是 cv: :MSER。 它 是 一 个 抽象 接口 ， 继 承 自 cv: :Feature2D 类 。 
事实 上 ，OpenCV 中 的 所 有 特征 检测 类 都 是 从 这 个 类 继承 的 。cv: :MSER 类 的 实例 可 以 通过 
create 方法 创建 。 我 们 在 初始 化 时 指定 被 检测 区 域 的 最 小 和 最 大 尺寸 ， 以 便 限 制 被 检测 特征 的 
数量 ， 调 用 方式 如 下 : 
// 基本 的 MSER 检测 器 
MMR 
cv::MSER: :create(5， // 局 部 检测 时 使 用 的 增 量 值 
200, // 允许 的 最 小 面积 
2000); // 允许 的 最 大 面积 
现在 可 以 通过 调用 detectRegions 方法 来 获得 MSER, 指定 输入 图 像 和 一 个 相关 的 输出 数 
据 结 构 ， 代 码 如 下 所 示 : 


// 点 集 的 容器 

std: :vector<std: :vector<cv::Point> > points; 
// 论 形 的 容器 

std: :vector<cv: :Rect> rects; 

// 检测 MSER 特征 
PtrMSER->detectRegions (image, points, rects); 


检测 结果 放 在 两 个 容器 中 。 第 一 个 是 区 域 的 容器 ,每 个 区 域 用 组 成 它 的 像素 点 表示 ; 第 二 个 
是 矩形 的 容器 ,每 个 矩形 包围 一 个 区 域 。 为 了 呈现 结果 ,创建 一 个 空白 图 像 ， 在 图 像 上 用 不 同 的 
颜色 显示 检测 到 的 区 域 (颜色 是 随机 选择 的 )。 用 以 下 代码 实现 : 

// 创建 白色 图 像 


Cv::Mat output (image.size(),CV_8UC3); 
人 让 
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// OpenCV 随机 数 生 成 器 
CV: :RNG rng; 


// 针对 每 个 检测 到 的 特征 区 域 ， 在 彩色 区 域 显示 MSER 

// 反 向 排序 ， 先 显示 较 大 的 MSER 

for (std: :Vector<sStd: :Vector<cV: :Point> >::reverse_ iterator 
it= points.rbegin(); 
it!= points.rend(); ++it) { 


// 生成 随机 颜色 
cvV::Vec3b cl(rng.uniform(0,254), 
rng.uniform(0,254), rng.uniform(0,254)); 


// 针对 MSER 集合 中 的 每 个 点 
for (std::vector<cv::Point>::iterator itPpts= it->begin(); 
itPts!= it->end(); ++itPts) { 


// 不 重 写 MSER 的 像素 
if (output.at<cv::Vec3b>(*itPts) [0]==255) { 
output.at<cv: :Vec3b>(*itPts)= c; 





} 
} 
} 
注意 , MSER 会 形成 层 蚕 区域。 为 了 显示 全 部 区 域 , 如 果 一 个 较 大 区 域内 包含 了 较 小 的 区 域 ， 
就 不 能 履 盖 它 。 可 以 从 下 图 中 检测 出 MSER。 











结果 如 下 图 所 示 。 














四 让 MSER point sets 二 x 


TA 


机 
IST 1 | 


中 没有 显示 全 部 区 域 , 但 是 可 以 看 出 , 通过 这 种 方法 能 从 图 片 中 提取 到 一 些 有 意义 的 区 域 
(例如 建筑 物 的 窗户 )。 



































5.6.2 ”实现 原理 


MSER 的 原理 与 分 水 岭 算 法 相同 ， 即 高 度 为 0~-255， 逐 渐 济 没 图 像 。 在 图 像 处 理 技术 中 , 通 
常 把 高 于 某 个 阔 值 的 像素 集合 称 为 高 度 集 。 随 着 水 位 的 升 高 , 颜色 较 黑 并 且 边 界 陡 峭 的 区 域 会 形 
成 盆地 ， 并 且 在 一 段 时 间 内 有 相对 稳定 的 形状 ( 用 水 位 表示 颜色 ， 水 位 高 低 代 表 了 像素 值 的 强 
度 )。 这 些 稳定 的 盆地 就 是 MSER。 检 测 它们 的 方法 是 ， 观 察 每 个 水 位 连通 的 区 域 ( 即 盆地 ) 并 
测量 它们 的 稳定 性 。 测 量 稳定 性 的 方法 是 : 计算 区 域 的 当前 面积 以 及 该 区 域 原先 的 面积 ( 比 当 前 
水 位 低 一 个 特定 值 的 时 候 )， 并 比较 这 两 个 面积 。 如 果 相 对 变化 达到 局 部 最 小 值 ， 就 认为 这 个 区 
域 是 MSER。 增 量 值 将 作为 cv: :MSER 类 构造 函数 的 第 一 个 参数 , 用 以 测量 相对 稳定 性 , 默认 值 
为 5。 男 外 要 注意 ， 区 域 面积 必须 在 预定 义 的 范围 内 。 构 造 函 数 中 后 面 两 个 参数 就 是 允许 的 最 小 
和 最 大 区 域 尺 寸 。 男 外 必须 确保 MSER 是 稳定 的 (第 四 个 参数 ), 即 形 状 的 相对 变化 必须 足够 小 。 
一 个 稳定 区 域 可 以 属于 另 一 个 更 大 的 区 域 〈 称 为 父 区 域 )。 


为 了 确保 有 效 性 ， 一 个 父 MSER 和 它 的 子 区 域 必须 有 足够 大 的 差别 ， 即 差异 限度 ， 由 
cv: :MSER 类 构造 函数 的 第 五 个 参数 指定 。 在 前 面 的 例子 中 ， 最 后 两 个 参数 都 使 用 了 默认 值 。 
( MSER 允许 的 最 大 相对 变化 的 默认 值 为 0.25, 父 MSER 与 子 区域 的 最 小 差别 的 默认 值 为 0.2。) 
可 见 ， 要 检测 MSER， 必 须 对 参数 进行 规范 化 ， 否 则 难以 应 对 不 同 环境 。 


MSER 检测 器 首先 输出 一 个 包含 像素 集 的 容器 ,每 个 像素 集 构成 一 个 区 域 。 因 为 我 们 需要 找 
出 整个 区 域 的 位 置 ， 而 不 是 里 面 的 单个 像素 , 所 以 通常 用 包含 了 被 检测 区 域 的 几何 形状 表示 一 个 
MSER。 检 测 过 程 中 输出 的 第 二 项 是 一 系列 矩形 ， 夯 出 所 有 算 形 就 能 表示 检测 的 结果 。 但 是 这 样 
会 画 出 许多 矩形， 使 结果 很 不 直观 ( 区 域 之 间 还 会 互相 包含 ， 结 果 更 加 混乱 )。 这 个 例子 主要 想 
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检测 出 大 楼 中 的 窗户 , 因此 要 提取 出 所 有 包含 垂直 矩形 的 区 域 。 实 现 方法 是 将 每 个 矩形 的 面积 与 
检测 到 的 对 应 区 域 进行 比较 ， 如 果 两 者 一 致 ( 这 里 用 的 判断 标准 是 两 者 比例 超过 0.6 ), 那么 它 就 
是 一 个 MSER。 测 试 代码 如 下 所 示 : 


// 提取 并 显示 矩形 的 MSER 
std: :Vector<CcV: :Rect>::iterator itr = rects.begin(); 
std: :vector<std: :vector<cv::Point> >::iterator itp = points.begin(); 
for (; itr != rects.end(); ++itr, ++itp) { 

// 检查 两 者 比例 

if (static cast<double>(itp->size())/itr->area() > 0.6) 
cv::rectangle(image, *itr, cv::Scalar(255), 2); 








} 
提取 到 的 MSER 如 下 图 所 示 。 














国 Rectangular MSERs 








在 其 他 应 用 程序 中 , 也 可 以 采用 别 的 判断 标准 和 显示 方法 。 下 面 代码 的 判断 依据 是 检测 到 的 
区 域 不 能 太 细 长 〈 将 封闭 的 矩形 旋转 ， 计 算 其 宽 高 比 )， 然 后 用 未 旋转 的 封闭 椭圆 表示 它们 。 





// 提取 并 显示 椭圆 形 的 MSER 
for (std::vector<std::vector<cv::Point> >::iterator 
it = points.begin(); 
it != points.end(); ++it) { 
// 遍历 MSER 集合 中 的 每 个 点 
for (std::vector<cv::Point>::iterator itPts = it->begin(); 
itPts != it->end(); ++itPts) { 





// 提取 封闭 的 矩形 

cv::RotatedRect rr = cv::minAreaRect (*it); 

// 检查 椭圆 的 长 宽 比 

if (rr.size.height / rr.size.height > 0.6 || 
rr.size.height / rr.size.height < 1.6) 
cv::ellipse(image, rr, cv::Scalar(255), 2); 


























注意 ,对 于 有 父子 关系 的 MSER， 表 示 它 们 的 椭圆 通常 比较 相似 。 在 某 些 情况 下 ， 可 以 施加 
一 个 约束 条 件 ， 要 求 椭圆 之 间 的 差距 不 低 于 某 个 特定 值 ， 以 免 显 示 重 复 的 椭圆 。 





5.6.3 参阅 


口 7.6 节 将 介绍 计算 连通 点 集 的 其 他 属性 的 方法 。 
口 第 8 章 将 解释 如 何 把 MSER 作为 兴趣 点 检测 器 。 





第 6 章 


图 像 滤 波 








本 章 包 括 以 下 内 容 : 


口 用 低 通 滤波 器 进行 图 像 滤 波 ; 
口 用 滤波 器 进行 缩减 像素 采样 ; 
口 用 中 值 滤波 器 进行 图 像 滤 波 ; 
口 用 定向 滤波 需 检 测 边缘 ; 

口 计算 图 像 的 拉 普 拉 斯 算 子 。 

















6.1 简介 


滤波 是 信号 和 图 像 处 理 中 的 一 种 基本 操作 。 它 的 目的 是 选择 性 地 提取 图 像 中 某 些 方面 的 内 
容 , 这 些 内 容 在 特定 应 用 环境 下 传达 了 重要 信息 。 滤波 可 去 除 图 像 中 的 噪声 , 提取 有 用 的 视觉 特 
征 ， 对 图 像 重 新 采样 ， 等 等 。 它 起 源 于 通用 的 信号 和 系统 理论 ， 这 里 不 对 这 个 理论 做 详细 解释 。 
本 章 将 介绍 几 个 有 关 滤 波 的 重要 概念 , 并 演示 如 何在 图 像 处 理 程序 中 使 用 滤波 器 。 首先 简 要 解释 
一 下 频 域 分 析 的 概念。 


当 我 们 看 一 幅 图 像 时 ， 就 是 在 观察 图 像 中 不 同 灰 度 级 别 (或 彩色 ) 组 成 的 图 案 。 图像 之 间 的 
区 别 , 就 在 于 它们 有 不 同 的 灰 度 级 分 布 方 式 。 然 而 , 也 可 以 从 其 他 角度 进行 图 像 分 析 。 我 们 可 以 
看 到 图 像 中 灰 度 级 的 变化 。 有 些 图 像 含有 大 片 强度 值 几 乎 不 变 的 区 域 (如 蓝天 )， 而 对 于 其 他 图 
像 ， 灰 度 级 的 强度 值 在 整 幅 图 像 上 的 变化 很 大 ( 例如 由 大 量 细小 物体 构成 的 混乱 场景 )。 


因此 产生 了 男 一 种 描述 图 像 特性 的 方式 ， 即 观察 上 述 变 化 的 频率 。 这 种 特征 称 为 频 域 
( frequency domain ); 而 通过 观察 灰 度 分 布 来 描述 图 像 特征 ， 称 为 空域 ( spatial domain )。 


频 域 分 析 把 图 像 分 解 成 从 低频 到 高 频 的 频率 成 分 。 图 像 强度 值 变化 慢 的 区 域 只 包含 低频 率 ， 
而 强度 值 变化 快 的 区 域 产 生 高 频率 。 有 几 种 著名 的 变换 法 可 用 来 清楚 地 显示 图 像 的 频率 成 分 , 例 
如 傅 里 时 变换 或 余弦 变换 。 图 像 是 二 维 的 ， 因 此 频率 分 为 两 种 ， 即 垂直 频率 〈 垂直 方向 的 变化 ) 
和 水 平 频率 ( 水 平方 向 的 变化 )。 
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在 频 域 分 析 框 架 下 ,滤波 器 是 一 种 放大 ( 也 可 以 不 改变 ) 图 像 中 某 些 频段 ， 同 时 滤 掉 (或 减 
弱 ) 其 他 频段 的 算 子 。 例如 , 低 通 滤波 器 的 作用 是 消除 图 像 中 的 高 频 部 分 ; 高 通 滤波 器 刚好 相反 ， 
用 来 消除 图 像 中 的 低频 部 分 。 本 章 将 介绍 几 种 在 图 像 处 理 领域 常用 的 滤波 器 , 并 解释 它们 对 图 像 
起 到 的 作用 。 























6.2 低 通 滤波 器 


本 闻 将 介绍 几 种 非常 基本 的 低 通 滤波 器 。 由 6.1 节 可 知 ， 这 种 滤波 器 的 目的 是 减少 图 像 变化 
的 幅度 。 要 做 到 这 点 , 一 个 简单 的 方法 是 把 每 个 像素 的 值 蔡 换 成 它 周 于 像素 的 平均 值 。 这 样 一 来 ， 
强度 的 快速 变化 会 被 消除 ， 取 而 代 之 的 是 更 加 平滑 的 过 渡 。 

















6.2.1 如 何 实现 

cv: :blur 函数 将 每 个 像素 的 值 蔡 换 成 该 像素 邻 域 的 平均 值 ( 邻 域 是 矩形 的 )， 从 而 使 图 像 
更 加 平滑 。 这 个 低 通 滤波 器 的 用 法 如 下 所 示 : 

cv::pblur(image,result， cv::Size(5,5)); // 滤波 器 尺寸 


这 种 滤波 器 也 称 为 块 滤波 器 (box filter )。 为 了 让 效果 更 加 明显 ， 这 里 使 用 尺寸 为 5x5 的 滤 
波 器 。 这 是 原始 网 像 。 
































这 是 使 用 滤波 器 后 得 到 的 结果 。 
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国 a Mean filtered Image a 回 xX 











有 时 需要 让 邻 域内 较 近 的 像素 具有 更 高 的 重要 度 。 因 此 可 计算 加 权 平 均值 , 即 较 近 的 像素 比 
较 远 的 像素 具有 更 大 的 权重 。 要 得 到 加 权 平 均值 ， 可 采用 依据 高 斯 函数 〈( 即 “ 钟 形 曲线 ”函数 ) 
制定 的 加 权 策 略 。 函 数 cv: :GaussianBlur 应 用 了 这 种 滤波 器 ， 调 用 方法 如 下 所 示 : 
Cv::GaussianBlur(image, result, 


cvV::Size(5,5)，// 滤波 器 尺寸 
1 // 控制 高 斯 曲线 形状 的 参数 


得 到 的 结果 如 下 所 示 。 








圈 a Gaussian filtered Image | 四 xX 








6.2.2 ”实现 原理 


如 果 一 种 滤波 器 是 用 邻 域 像素 的 加 权 累 加 值 来 替换 像素 值 ， 我 们 就 说 这 种 滤波 絮 是 线性 的 。 
这 里 使 用 了 均值 滤波 器 ， 即 将 矩形 邻 域内 的 全 部 像素 累加 ， 除 以 该 邻 域 的 数量 〈 即 求 平均 值 )， 
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然后 用 这 个 平均 值 蔡 换 原 像素 的 值 。 这 相当 于 把 邻 域 中 每 个 像素 乘 以 1， 然 后 进行 累加 。 也 可 以 
把 邻 域 中 每 个 像素 位 置 对 应 的 放大 系数 存放 在 一 个 矩阵 中 ， 用 这 个 矩阵 表示 滤波 带 的 不 同 权重 。 


和 矩阵 中 心 的 元 素 对 应 当前 正在 应 用 滤波 器 的 像素 。 这 样 的 矩阵 也 称 为 内 核 或 掩 码 。 对 于 一 个 
3x3 均值 滤波 器 ， 其 对 应 的 内 核 可 能 是 这 样 的 。 

















函数 cv: :boxFilter 对 图 像 做 滤波 时 , 使 用 了 一 个 仅 由 1 组 成 的 正方 形 内 核 。 它 与 均值 滤 
波 器 类 似 ， 但 不 会 除 以 系数 的 数量 。 


应 用 一 个 线性 滤波 器 相当 于 将 内 核 移动 到 图 像 的 每 个 像素 上 , 并 将 每 个 对 应 像素 乘 以 它 的 权 
重 。 这 个 运算 在 数学 上 称 为 卷 积 ， 规 范 的 写法 如 下 所 示 : 


Tal%y) = 22 Tx-by -IK 




















在 这 个 双重 求 和 过 程 中 , 位 于 (x,y) 的 当前 像素 与 内 核 的 中 心 点 对 齐 , 并 假定 它 位 于 坐标 (0, 0) 
处 。 

观察 本 节 产 生 的 输出 图 像 ， 可 以 发 现 低 通 滤波 器 的 最 终 效果 是 使 图 像 更 加 模糊 或 更 加 平滑 。 
这 不 奇怪 , 因为 低 通 滤波 顺 减 弱 了 高 频 成 分 , 而 高 频 成 分 正好 对 应 了 物体 边缘 处 的 快速 视觉 变化 。 

对 于 高 斯 滤波 右 ， 像 素 对 应 的 权重 与 它 到 中 心 像素 之 间 的 距离 成 正比 。 一 维 高 斯 函数 的 公 
式 为 : 





























GOCD = 4e 2 


使 用 归 一 化 系数 4 是 为 了 确保 高 斯 曲线 下 方 的 面积 等 于 1。 符号 o( sigma, 希腊 字母 西格玛 ) 
的 值 决 定 了 高 斯 也 数 曲 线 的 宽度 。 这 个 值 越 大 ， 函数 曲线 就 越 扁 平 。 例 如 计算 一 维 高 斯 滤波 器 的 
系数 ， 区 间 [-4, 0, 4]， 如 果 o= 0.5， 得 到 如 下 系数 : 
O00 Qt 00000020. 0 L0645 7805 7 0 L0665. 000026- 0 0 00 
如 果 uc= 1.5， 得 到 的 系数 为 : 


[0.0076 0.03608 0.1096 0.2135 0.2667 0.2135 0.1096 0.0361 0.0076 ] 
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注意 ， 计 算 这 些 系数 的 方法 是 用 对 应 的 o 的 值 调用 函数 cv: :getGaussianKernel: 
Cv::Mat gauss= cv::getGaussianKernel(9, sigma,CV_32F); 


这 两 个 o 值 的 高 斯 曲线 如 下 图 所 示 。 高 斯 函数 是 一 个 对 称 钟 形 曲 线 , 因此 它 非常 适用 于 滤波 : 

















09 








0.8 


0.7 








06 


0.5 





























从 图 中 可 以 看 出 , 离 中 心 点 越 远 的 像素 权重 越 低 , 这 使 像素 之 间 的 过 渡 更 加 平滑 ,与 之 相反 ， 
使 用 扁平 的 均值 滤波 器 时 ， 远 处 的 像素 会 使 当前 平均 值 发 生 突变 。 从 频率 上 看 ,这 意味 着 均值 滤 
波 器 并 没有 消除 全 部 高 频 成 分 。 

要 在 图 像 上 应 用 二 维 高 斯 滤波 器 ,只 需 先 在 横向 线条 上 应 用 一 维 高 斯 滤波 器 ( 过 滤 水 平方 向 
的 频率 )， 然 后 在 纵向 线条 上 应 用 另 一 个 一 维 高 斯 滤波 器 ( 过 滤 垂 直方 向 的 频率 )。 这 是 因为 ， 高 
斯 滤波 需 是 一 种 可 分 离 滤 波 器 〈 也 就 是 说 ， 二 维 内 核 可 分 解 成 两 个 一 维 滤波 器 )。 要 应 用 普通 的 
可 分 离 滤波 器 ， 可 使 用 cv: :sepFilter2D 困 数 。 也 可 以 用 cv: :filter2D 函数 直接 应 用 二 维 
内 核 。 由 于 可 分 离 滤波 器 所 用 的 乘法 运算 更 少 ， 因 此 它 的 计算 速度 通常 比 不 可 分 离 滤波 器 要 快 。 


在 OpenCV 中 ， 若 要 对 图 像 应 用 高 斯 滤波 器 ， 需 要 调用 函数 cv: :GaussianBlur， 并 且 提 
供 系数 的 个 数 ( 第 三 个 参数 ， 必 须 是 奇数 ) 和 o 的 值 (第 四 个 参数 )。 也 可 以 只 设置 o 的 值 ， 由 
OpenCV 决定 系数 的 个 数 ( 输入 滤波 器 尺寸 的 值 为 0 )。 反 过 来 也 可 以 , 即 输入 参数 时 提供 尺寸 的 
数值 ，c 值 为 0。 函数 会 自行 判断 最 适合 尺寸 的 o 值 。 





































































































6.2.3 ”参阅 


口 6.3 节 将 介绍 如 何 用 低 通 滤 波 器 压缩 图 像 
绍 了 cv::filter2D 函数 。 该 函数 根据 用 户 选择 的 内 核 ， 在 图 像 上 应 用 线性 
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需要 调整 图 像 精度 ( 重新 采样 ) 的 情况 屡见不鲜 ， 降 低 图 像 精 度 的 过 程 称 为 缩减 像素 采样 






































尽 可 能 地 保持 图 像 质量 。 为 此 ， 人 们 通常 采用 低 通 滤波 器 来 实现 算法 ， 本 节 将 介绍 具体 原因 。 


6.3.1 ”如 何 实现 


你 也 许 会 觉得 ， 要 缩小 一 幅 图 像 ， 只 需 简 单 地 消除 图 像 中 的 一 部 分 行 和 列 就 可 以 了 。 可 惜 ， 
这 么 做 得 到 的 图 像 效 果 很 差 。 下 面 的 图 片 说 明了 这 点 , 它 是 将 测试 用 的 图 像 缩 小 到 1/4 后 得 到 的 ， 
方法 是 只 保留 每 四 行 ( 列 ) 像素 中 的 一 行 ( 列 )。 


注意 ， 为 了 让 图 像 的 缺陷 看 起 来 更 明显 ， 将 每 个 像素 按 原 大 小 的 四 售 进 行 显示 。 




















可 以 发 现 , 这 幅 图 像 的 质量 明显 降低 了 , 例如 原始 图 像 中 城堡 顶部 倾斜 的 边缘 在 缩小 后 的 图 
像 中 看 起 来 像 是 楼 梯 。 图 像 的 纹理 部 分 也 能 看 到 锯齿 状 的 变形 ( 如 砖 墙 )。 


这 些 令 人 讨厌 的 伪 影 是 一 种 叫 作 空 间 假 频 的 现象 造成 的 。 当 你 试图 在 图 像 中 包含 高 频 成 分 ， 
但 由 于 图 像 太 小 而 无 法 包含 时 ， 就 会 出 现 这 种 现象 。 实 际 上 ， 在 小 图 像 ( 即 像素 较 少 的 图 像 ) 中 
展现 精致 纹理 和 尖锐 边缘 的 效果 不 如 在 较 高 分 辨 率 的 图 像 中 展现 它们 的 效果 好 ( 想 想 高 清 电 视 机 
和 普通 电视 机 的 差别 )。 图 像 中 精致 的 细节 对 应 着 高 频 ， 因 此 需要 在 缩小 图 像 之 前 去 除 它 的 高 频 
成 分 。 

通过 上 一 节 的 学 习 , 我 们 知道 这 可 以 用 低 通 滤波 带 实 现 。 因 此 在 删除 部 分 列 和 行 之 前 ,必须 
先 在 原始 图 像 上 应 用 低 通 滤波 器 ， 这 样 才能 使 图 像 在 缩小 到 四 分 之 一 后 不 出 现 伪 影 。 这 是 用 
OpenCV 的 实现 方法 : 
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// 首先 去 除 高 频 成 分 
Cv::GaussianBlur (image, image,cv::Size(11,11),2.0); 
// 只 保留 每 4 个 像素 中 的 1 个 
cv::Mat reduced (image.rows/4,image.cols/4,CV_8U); 
for (int i=0; i<reduced.rows; i++) 
for (int j=0; j<reduced.cols; j++) 
reduced.at<uchar>(i,j)= image.at<uchar>(i*4,j*4); 


得 到 的 图 像 如 下 所 示 ( 放大 四 售 显 示 )。 





国 Reduced Image ey 回 XxX 








当然 了 ,这 幅 图 像 丢失 了 一 些 精致 的 细节 , 但 从 总 体 上 看 , 它 的 视觉 质量 比 前 面 的 要 好 ( 从 
远 处 看 就 会 发 现 ， 这 幅 图 像 的 质量 确实 好 多 了 )。 


6.3.2 ”实现 原理 


为 避免 混 秋 现象 的 发 生 ， 在 缩减 图 像 之 前 必须 进行 低 通 滤 波 。 前 面 说 过 , 低 通 滤波 的 作用 是 
消除 在 缩减 后 的 图 像 中 无 法 表示 的 高 频 部 分 。 这 一 现象 称 为 Nyquist-Shannon 定理 , 它 表 明 如 果 
把 图 像 缩 小 一 半 ， 那 么 其 可 见 的 频率 带宽 也 将 减少 一 半 。 


OpenCV 中 有 一 个 专用 函数 ， 利用 这 个 原理 实现 了 图 像 缩减 ， 即 cv: :pyrDown 函数 : 


cv::Mat reducedIimage; // 用 于 存储 缩小 后 的 图 像 

cVv::pyrDown (image,reducedImage); // 图 像 尺寸 缩小 一 半 

上 述 函 数 使 用 了 一 个 5x5 的 高 斯 滤波 器 , 在 把 图 像 缩 小 一 半 之 前 先进 行 低 通 滤波 。 此 外 还 有 
功能 相反 的 函数 cv: :pyrUp， 它 可 以 放大 图 像 的 尺寸 。 在 这 种 提升 像素 采样 的 过 程 中 ， 先 在 每 
两 行 和 每 两 列 之 间 分 别 插入 值 为 0 的 像素 , 然后 对 扩展 后 的 图 像 应 用 同样 的 5x5 高 斯 滤波 器 (但 
系数 要 扩大 4 倍 )。 先 缩小 一 幅 图 像 再 把 它 放 大 ， 显 然 不 能 完全 让 它 恢复 到 原始 状态 ， 因 为 缩小 
过 程 中 丢失 的 信息 是 无 法 恢复 的 。 这 两 个 函数 可 用 来 创建 图 像 金字 塔 。 它 是 一 个 数据 结构 ， 由 一 
幅 图 像 不 同 尺寸 的 版 本 堆 钱 起 来 ， 用 于 高 效 的 图 像 分 析 ， 结 果 如 下 图 所 示 。 
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夯 了 pyramid of images 3 x 





















































每 层 图 像 的 尺寸 是 后 一 层 的 2 售 , 但 是 这 个 比例 还 可 以 更 小 , 也 不 一 定 是 整数 ( 可 以 是 1.2 )。 
例如 ,如 果 要 在 图 像 中 快速 检测 一 个 物体 ， 可 以 先 在 金字 塔 项 部 的 小 图 像 上 检测 。 当 定位 到 感 兴 
趣 的 物体 时 ， 在 金字 塔 的 更 低层 次 进行 更 精细 的 搜索 ， 更 低层 次 的 图 像 分 辨 率 更 高 。 

此 外 还 有 一 个 更 通用 的 函数 cv: :resize, 它 可 以 指定 缩放 后 图 像 的 尺寸 。 你 只 需要 在 调用 
它 时 指定 新 的 尺寸 ， 这 个 尺寸 可 以 比 原始 图 像 小 ， 也 可 以 比 原始 图 像 大 : 

像 























cv::Mat resizedImage; // 用 于 存储 缩放 后 的 图 
cv::resize(image, resizedIimage, 
cv::Size(image.cols/4,image.rows/4)); // 行 和 列 均 缩小 为 原来 的 1/4 


你 也 可 以 指定 缩放 比例 。 在 参数 中 提供 一 个 空 的 图 像 实例 ， 然 后 提供 缩放 比例 : 





tis 





cv::resize(image, resizedIimage, 
cv::Size()，1.0/4.0，1.0/4.0); // 缩小 为 原来 的 1/4 


最 后 一 个 参数 可 用 来 选择 重新 采样 时 使 用 的 插值 方法 ， 下 一 节 将 做 详细 介绍 。 








6.3.3 扩展 阅读 


按 比例 缩放 图 像 后 ， 必 须 进行 像素 插值 ， 以 便 在 原 像素 之 间 的 位 置 插入 新 的 像素 值 。 通 用 的 
图 像 重 映射 (详情 请 参见 2.8 节 ) 属于 男 一 种 需要 像素 插值 的 情况 。 


像素 插值 


进行 插值 的 最 基本 方法 是 使 用 最 近邻 策略 。 把 待 生 成 图 像 的 像素 网 格 放 在 原 图 像 的 上 方 , 每 
个 新 像素 被 赋予 原 图 像 中 最 邻近 像素 的 值 。 当 图 像 升 采样 〈 即 新 网 格 比 原始 网 格 更 密集 时 ) 时 ， 
会 根据 同一 个 原始 像素 ， 确 定 新 网 格 中 多 个 像素 的 值 。 例 如 要 把 上 面 缩小 后 的 图 像 放大 4 倍 , 采 
用 最 邻近 插值 法 的 代码 如 下 所 示 : 

















Cv::resize(reduced, newImage, cv::Size(), 3, 3, cv::INTER_ NEAREST); 


本 例 中 的 插值 算法 简单 地 把 每 个 像素 的 尺寸 乘 以 4。 更 好 的 做 法 是 在 插入 新 的 像素 值 时 ， 结 
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合 多 个 邻近 像素 的 值 。 因 此 ， 可 利用 周围 四 个 像素 的 值 ， 线 性 地 计算 新 像素 值 ， 如 下 图 所 示 。 





具体 过 程 为 , 先 在 新 增 像素 的 左 侧 和 右 侧 垂直 地 插入 两 个 像素 值 , 然后 利用 这 两 个 插入 的 像 
素 (上 面 图 片 中 的 灰色 部 分 ) 在 预定 的 位 置 水 平地 插入 像素 值 。 这 种 双 线 性 插值 方案 是 
cv: :resize 图 数 的 缺 省 方法 (可 以 用 标志 cv: :INTER_LINEAR 显 式 地 指定 ): 

















Cv::resize(reduced, newImage, cv::Size(), 4, 4, cv::INTER_ LINEAR); 


得 到 的 结果 如 下 所 示 。 6 


轿 Bilinear resizing 加 XxX 

















此 外 还 有 一 些 算法 ,可 以 得 到 更 好 的 结果 。 如 果 想 使 用 双 三 次 插值 算法 ,就 要 在 执行 插值 运 
算 时 考虑 4x4 的 邻 域 像素 。 但 因为 这 种 算法 使 用 了 更 多 的 像素 ( 16 个 ), 并 且 包 含 了 三 次 函数 的 
计算 ， 所 以 它 的 运算 速度 比 双 线性 插值 算法 慢 。 





6.3.4 ”参阅 

口 2.6.4 节 介绍 了 cv: :filter2D 函数 。 该 函数 根据 用 户 选 择 的 内 核 ， 在 图 像 上 应 用 线性 滤 
波 器 。 

口 8.4 节 将 介绍 如 何 用 图 像 金字 塔 检测 感 兴趣 的 点 。 
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6.4 ”中 值 滤波 器 


62 节 介 绍 了 线性 滤波 器 的 概念 。 除 此 之 外 ， 非 线性 滤波 器 在 图 像 处 理 中 也 起 着 很 重要 的 作 
用 。 本 闻 将 介绍 的 中 值 滤波 器 就 是 其 中 的 一 种 。 

因为 中 值 滤波 器 对 消除 椒盐 噪声 非常 有 用 ( 这 里 用 只 有 盐 的 噪声 )， 所 以 我 们 将 使 用 2.2 市 
创建 的 图 像 ， 如 下 所 示 。 











6.4.1 如何 实 现 
调用 中 值 滤波 器 函数 的 方法 与 调用 其 他 滤波 器 差不多 : 


cv: :medianBlur (image, result, 5); 


// 最 后 一 个 参数 是 滤波 器 尺寸 
结果 如 下 所 示 。 





看 了 Median filtered Image 口 泣 
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6.4.2 ”实现 原理 


因为 中 值 滤波 器 是 非 线性 的 ， 所 以 不 能 用 核心 矩阵 表示 ， 也 不 能 进行 卷 积 运算 ( 即 6.2 节 介 
绍 的 双 求 和 方程 )。 但 它 也 是 通过 操作 一 个 像素 的 邻 域 ， 来 确定 输出 的 像素 值 的 。 正 如 其 名 ， 中 
值 滤波 器 把 当前 像素 和 它 的 邻 域 组 成 一 个 集合 , 然后 计算 出 这 个 集合 的 中 间 值 ， 以 此 作为 当前 像 
素 的 值 (集合 中 数值 经 过 排序 ， 中 间 位 置 的 数值 就 是 中 间 值 )。 当 前 像素 被 中 间 值 代替 。 


这 正 是 中 值 滤波 器 在 消除 椒盐 噪声 时 如 此 高 效 的 原因 。 事 实 上 , 如 果 在 某 个 像素 邻 域 中 有 一 
个 异常 的 黑色 或 白色 像素 ， 该 像素 将 无 法 作为 中 间 值 ( 它 是 最 大 值 或 最 小 值 )， 因 此 肯定 会 被 邻 
域 的 值 替换 掉 。 

相反 ,简单 均值 滤波 器 会 在 很 大 程度 上 受到 这 种 噪声 影响 ,从 下 图 中 就 可 以 观察 到 , 这 是 用 
均值 滤波 器 消除 椒盐 噪声 的 结果 。 

































































很 明显 ,包含 噪声 的 像素 使 邻 域 的 均值 发 生 了 偏 移 。 虽 然 噪声 被 均值 滤波 器 弄 模糊 了 ,但 仍 
然 可 以 看 见 。 

中 值 滤波 器 还 有 利于 保留 边缘 的 尖锐 度 ， 但 它 会 洗 去 均 质 区 域 中 的 纹理 〈 例 如 背景 中 的 树 
木 )。 因 为 中 值 滤波 器 具有 良好 的 视觉 效果 ， 因 此 照片 编辑 软件 常用 它 创建 特效 。 可 用 彩色 图 像 
来 测试 ， 看 它 如 何 生 成 类 似 卡 通 的 图 像 。 























6.5 用 定向 滤波 器 检测 边缘 


6.2 节 介 绍 了 用 核心 矩阵 进行 线性 滤波 的 概念 。 这 些 滤波 器 通过 移 除 或 减弱 高 频 成 分 ， 取 得 
模糊 图像 的 效果 。 本 节 将 执行 一 种 反 向 的 变换 ， 即 放大 图 像 中 的 高 频 成 分 ， 再 用 本 节 介 绍 的 高 通 
滤波 骨 进 行 边缘 检测 。 
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6.5.1 如何 实 现 


我 们 将 要 使 用 的 滤波 器 称 为 Sobel 滤波 器 。 因 为 它 只 对 垂直 或 水 平方 向 的 图 像 频率 起 作用 
《具体 方向 取决 于 滤波 器 选用 的 内 核 )， 所 以 被 认为 是 一 种 定向 滤波 器 。OpenCyV 中 有 一 个 函数 可 
在 图 像 上 应 用 Sobel 算 子 。 水 平方 向 滤波 器 的 调用 方法 为 : 











cv::Sobel (image， // 输入 
sobelx, // 输出 
CV_8U, // 图 像 类 型 
ts // 内 核 规格 


人 // 正方 形 内 核 的 尺寸 
0.4，128); // 比例 和 偏 移 量 


垂直 方向 滤波 的 调用 方法 为 〈 与 水 平方 向 滤波 器 非常 类 似 ): 








cv::Sobel (image， // 输入 
SobelY， // 输出 
CV_8U, // 图 像 类 型 
(Oi // 内 核 规格 
和 // 正方 形 内 核 的 尺寸 
0.4，128); // 比例 和 偏 移 量 


函数 用 到 了 几 个 整 型 参数 ,下 一 节 会 详细 解释 。 注 意 ， 选 用 这 些 参数 是 为 了 生成 一 个 8 位 的 
输出 图 像 (cv_8U )。 


水 平方 向 Sobel 算 子 得 到 的 结果 如 下 所 示 。 








国 a Sobel X Image 人 辕 xX 





下 一 节 将 介绍 ，Sobel 算 子 的 内 核 中 既 有 正 数 又 有 负数 ， 因 此 Sobel 滤波 器 的 计算 结果 通常 
是 16 位 的 有 符号 整数 图 像 (cv_16s )。 为 了 把 结果 显示 为 8 位 图 像 (上 图 )， 我 们 用 数值 0 代表 
灰 度 128。 负 数 表示 更 暗 的 像素 ， 正 数 表示 更 亮 的 像素 。 垂 直方 向 Sobel 图 像 如 下 所 示 。 
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夯 了 Sobel Y Image 图 xX 








如 果 你 熟悉 照片 编辑 软件 ， 就 会 知道 这 和 图 像 浮雕 化 特效 很 像 。 实 际 上 ,这 种 特效 通常 就 是 
用 定向 滤波 器 生成 的 。 











你 可 以 组 合 这 两 个 结果 ( 垂直 和 水 平方 向 )， 得 到 Sobel 滤波 器 的 范 数 : 


// 计算 Sobel 滤波 器 的 范 数 
CVv::Sobel (image, sobelx,CV_16S,1,0); 
CVv::Sobel (image, sobelY,CV_16S,0,1); 
cv::Mat sobel; 

// 计算 L1 范 数 

sobel= abs (sobelx) +abs (sobelY); 


在 convertTo 方法 中 使 用 可 选 的 缩放 参数 可 得 到 一 幅 图 像 ， 图 像 中 的 白色 用 0 表示， 更 黑 
的 灰色 阴影 用 大 于 0 的 值 表示 。 这 幅 图 像 可 以 很 方便 地 显示 Sobel 算 子 的 范 数 ， 代 码 如 下 所 示 : 
// 找到 Sobel 最 大 值 


double sobmin, sobmax; 

cv: :minMaxLoc (sobel,&sobmin,é&sobmax); 
// 转换 成 8 位 图 像 

// sobelImage = -alpha*sobel + 255 
cv::Mat sobelImage; 


sobel.convertTo(sobelImage,CV_8U,-255./sobmax,255); 


得 到 的 结果 如 下 所 示 。 
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夯 了 Sobel Image xX 
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从 上 图 可 以 看 出 把 Sobel 算 子 称 作 边缘 检测 器 的 原因 。 接 着 ， 你 可 以 对 这 幅 图 像 阔 值 化 ， 得 
到 图 像 轮廓 的 二 值 分 布 图 。 代 码 片段 和 生成 的 图 像 如 下 所 示 : 


cv::threshold(sobelImage, sobelThresholded, 
threshold, 255, cv::THRESH_BINARY); 














男子 Binary Sobel Image (low) xX 

















6.5.2 ”实现 原理 


Sobel 算 子 是 一 种 典型 的 用 于 边缘 检测 的 线性 滤波 咒 ， 它 基于 两 个 简单 的 3x3 内 核 ， 内 核 结 
构 如 下 所 示 。 
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一 | 0 1 1 2 1 
一 2 0 2 0 0 0 
一 | 0 1 1 2 1 












































如 果 把 图 像 看 作 二 维 函 数 ， 那 么 Sobel 算 子 就 是 图 像 在 垂直 和 水 平方 向 变化 的 速度 。 在 数 
学 术语 中 ， 这 种 速度 称 为 梯度 。 它 是 一 个 二 维 向量 ， 向 量 的 元 素 是 横 紧 两 个 方向 的 函数 的 一 
阶 导数 : 


Ti 











or or| 
ar Oy 

Sobel 算 子 在 水 平和 垂直 方向 计算 像素 值 的 差分 ， 得 到 图 像 梯度 的 近似 值 。 它 在 像素 周围 的 
一 定 范围 内 进行 运算 , 以 减少 噪声 带 来 的 影响 。cv: : Sobel 函数 使 用 Sobel 内 核 来 计算 图 像 的 卷 
中。 函数 的 完整 说 明 如 下 所 示 : 


grad(7)= | 














cv: :Sobel (image, // 输入 
sobel, // 输出 
image_depth, // 图 像 类 型 
xorder,yorder， // 内 核 规格 
kernel_size, // 正方 形 内 核 的 尺寸 
alpha, beta); // 比例 和 偏 移 量 























根据 对 应 的 参数 ， 输 出 图 像 的 像素 类 型 是 可 以 选择 的 ， 包 括 无 符号 字符 型 、 有 符号 整数 或 
浮 点 数 。 如 果 结 果 超出 了 像素 值 域 的 范围 ， 就 会 进行 饱和 度 运 算 。 函 数 的 最 后 两 个 参数 可 用 来 
处 理 这 种 情况 。 在 生成 最 终 图 像 之 前 , 可 以 将 结果 缩放 ( 相 乘 ) alpha 倍 , 并 加 上 偏 移 量 beta。 


在 前 面 生 成 的 图 像 中 ，Sobel 值 0 代表 灰 度 值 128 ( 中 等 灰 度 ) 就 采用 了 这 种 方法 。 每 个 
Sobel 掩 码 都 是 一 个 方向 上 的 导数 ， 因 此 要 用 两 个 参数 来 指明 将 要 应 用 的 内 核 ， 即 x 方向 和 yy 方 
向 导数 的 阶 数 。 例 如 ,如 果 xorder 和 yorder 分 别 为 1 和 0， 则 得 到 水 平方 向 Sobel 内 核 ; 如 
果 分 别 是 0 和 1, 则 得 到 垂直 方向 的 内 核 。 也 可 以 使 用 其 他 组 合 , 但 这 两 种 组 合 是 最 常用 的 (下 
一 节 将 讨论 二 阶 导数 的 情况 ),。 最 后 ,内 核 的 尺寸 也 可 以 大 于 3x3。 可 选 的 尺寸 有 1、3、5 和 7。 
内 核 尺 寸 为 1， 表示 一 维 Sobel 滤波 器 ( 1x3 或 3xl )。 大 尺寸 内 核 的 作用 参见 6.5.3 节 。 

因为 梯度 是 一 个 二 维 向 量 ,， 所 以 它 有 范 数 和 方向 。 梯 度 向 量 的 范 数 表 示 变 化 的 振幅 ， 计 算 时 
通常 被 当 作 欧 几 里 得 范 数 (也 称 L2 范 数 ): 


mor 加 图 
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但 是 在 图 像 处理 领 域 ， 通 常 把 绝对 值 之 和 作为 范 数 进行 计算 。 这 称 为 L1 范 数 ， 它 得 到 的 结 
果 与 L2 范 数 比 较 接 近 ， 但 计算 速度 快 。 本 节 将 采用 工 1 范 数 : 


// 计算 L1 范 数 
sobel= abs (sobelx)+abs (sobelY); 


梯度 向 量 总 是 指向 变化 最 剧烈 的 方向 。 对 于 一 幅 图 像 来 说 , 这 意味 着 梯度 的 方向 与 边缘 垂直 ， 
从 较 暗 区 域 指向 较 亮 区 域 。 梯 度 的 角度 用 下 面 的 公式 计算 : 


ol /ol 
Lerad(l)=arctan| -一 /一 
grad(l)=arc "| 5 /2 



































在 检测 边缘 时 ， 通 常 只 计算 范 数 。 但 如 果 需 要 同时 计算 范 数 和 方向 ， 可 以 使 用 下 面 的 OpenCV 
函数 : 

// 计算 Sobel 算 子 ， 必 须 用 浮 点 数 类 型 

cvV::Sobel (image,sobelx,CV_32F,1,0); 

cvV::Sobel (image, sobelY,CV_32F,0,1); 

// 计算 梯度 的 L2 范 数 和 方向 

cv::Mat norm, dir; 

// 将 黎 卡 儿 坐 标 换算 成 极 坐标 ， 得 到 幅 值 和 角度 


Cv::cartToPolar (sobelx,sobelY,norm,dir); 
默认 情况 下 ， 得 到 的 方向 用 弧度 表示 。 如 果 要 使 用 角度 ， 只 需要 增加 一 个 参数 并 设 为 true。 


对 梯度 幅 值 进行 阔 值 化 , 可 得 到 一 个 二 值 边 缘分 布 图 。 选 择 合适 的 阔 值 并 不 容易 。 如 果 阔 值 太 
低 ， 就 会 保留 太 多 ( 厚 ) 的 边缘 ;而 如 果 选 用 更 严格 〈 高 ) 的 国 值 ， 就 会 留 下 断裂 的 边缘 。 为 了 说 
明 这 两 者 问 的 区 别 ， 下 面 用 更 高 的 阔 值 得 到 了 一 个 二 值 边缘 分 布 图 ， 将 它 与 前 面 的 图 做 对 比 。 



































大 耻 Binary Sobel Image (high) XxX 















































若 想 兼 顾 较 低 阔 值 和 较 高 阔 值 的 优点 ， 有 一 个 办 法 是 使 用 滞后 阅 值 化 的 概念 。 下 一 章 在 介绍 
Canny 算 子 时 将 对 此 进行 解释 。 
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6.5.3 扩展 阅读 


还 有 其 他 一 些 梯 度 算 子 , 这 里 将 介绍 其 中 的 几 个 。 还 可 以 在 应 用 导数 滤波 器 之 前 应 用 高 斯 平 
滑 滤 波 器 ， 这 会 减少 对 噪声 的 敏感 度 ， 后 面 会 详细 解释 。 


1. 梯度 算 子 
Prewitt 算 子 定义 了 下 面 的 内 核 ， 用 来 计算 某 个 像素 位 置 的 梯度 。 
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注意 ， 你 可 以 在 cv: :Sobel 函数 中 使 用 Scharr 内 核 ， 参 数 为 CV_SCHARR: 
CVv::Sobel (image, sobelx,CV_16S,1,0, CV_SCHARR); 


也 可 以 调用 cv: :scharr 图 数 ， 效 果 是 一 样 的 : 








Cv::Scharr (image, scharrXx,CV_16S,1,0,3); 


所 有 这 些 定向 滤波 器 都 会 计算 网 像 函 数 的 一 阶 导 数 。 因 此 , 在 滤波 器 方向 上 像素 强度 变化 大 
的 区 域 将 得 到 较 大 的 值 ， 较 平坦 的 区 域 将 得 到 较 小 的 值 。 正 因为 如 此 ,计算 图 像 导 数 的 滤波 顺 被 
称 为 高 通 滤 波 顺 。 
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2. 高 斯 导数 

导数 滤波 器 属于 高 通 滤波 器 ,因此 它们 往往 会 放大 图 像 中 的 噪声 和 细小 的 高 对 比 度 细节 。 为 
了 减少 这 些 高 频 成 分 的 影响 , 最 好 在 应 用 导数 滤波 器 之 前 对 图 像 做 平滑 化 处 理 。 也许 你 觉得 这 需 
要 两 个 步骤 ， 即 平滑 化 图 像 和 计算 导数 。 但 仔细 观察 这 些 运算 后 就 能 发 现 ， 只 要 选用 合适 的 平滑 
内 核 , 这 两 个 步骤 是 可 以 合并 的 。 前 面 提 到 过 , 图 像 与 滤波 器 的 卷 积 可 以 表示 为 一 些 项 的 累加 和 。 
有 趣 的 是 ， 有 一 个 著名 的 数学 定理 : 项 的 累加 和 的 导数 等 于 项 的 导数 的 累加 和 。 


因此 ,可 以 不 采取 对 平滑 化 的 结果 求 导数 ， 而 是 先 对 内 核 求 导数 ， 然 后 与 图 像 卷 积 ,这 两 个 
运算 可 以 在 像素 上 的 同一 次 滤波 中 完成 。 因 为 高 斯 内 核 是 连续 可 导 的 ， 所 以 这 种 做 法 特别 合适 。 
用 不 同 尺 寸 的 内 核 调用 cv: :Sobel 函数 时 ， 就 采用 了 这 种 方法 。 这 个 函数 用 不 同 的 oc 值 计算 高 
新 可 导 内 核 。 例 如 ， 如 果 在 x 方向 选用 7x7 的 Sobel 滤波 器 ( 即 kernel_size=7 ), 将 会 得 到 以 
下 结果 。 



































砷 寻 Sobel X Image (7x7) 





将 它 与 前 面 的 图 像 比 较 , 可 以 发 现 很 多 精致 的 细节 已 经 被 移 除 , 明显 的 边缘 位 置 得 到 了 进 一 
步 强化 。 注 意 ， 这 时 它 已 经 成 为 一 个 带 通 滤波 器 ， 部 分 较 高 的 频率 被 高 斯 滤波 器 移 除 ， 较 低 的 频 
率 被 Sobel 滤波 器 移 除 。 














6.5.4 ”参阅 
口 7.2 节 将 介绍 如 何 用 两 个 不 同 的 阔 值 获得 二 值 边缘 分 布 图 。 





6.6 ”计算 拉 普 拉 斯 算 子 
拉 普 拉 斯 算 子 也 是 一 种 基于 图 像 导数 运算 的 高 通 线性 滤波 器 , 它 通过 计算 二 阶 导数 来 度量 图 
像 函数 的 曲率 。 
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6.6.1 如何 实 现 


在 OpenCV 中 ， 可 用 cv: :Laplacian 困 数 计算 网 像 的 拉 普 拉 斯 算 子 。 它 与 cv: :Sobel 郴 
数 非常 类 似 。 实际 上 ， 为 了 获得 核心 矩阵 ， 它们 使 用 了 同一 个 基本 函数 cV: :getDerivKernelso 
根据 定义 ， 它 采用 二 阶 导 数 ， 因 此 和 cv: : Sobel 函数 唯一 的 区 别 是 它 没有 用 来 表示 导数 的 阶 的 


我 们 为 这 个 算 子 创建 一 个 简单 的 类 , 封装 几 个 与 拉 普 拉 斯 算 子 有 关 的 运算 。 基 本 的 属性 和 方 
法 如 下 所 示 : 










































































class LaplacianzC { 


private: 

// 拉 普 拉 斯 算 子 

cv::Mat laplace; 

// 拉 普 拉 斯 内 核 的 孔径 大 小 


int aperture; 





public: 
LaplacianZzC() : aperture(3) {} 


// 设置 内 核 的 孔径 大 小 
void setAperture(int a) { 
aperture= a; 


} 


// 计算 浮上 点数 类 型 的 拉 普 拉 斯 算 子 
Cv::Mat computeLaplacian(const cv::Maté& image) { 


// 计算 拉 普 拉 斯 算 子 
cv::Laplacian(image,laplace,CV_32F,aperture); 
return laplace; 


} 


拉 普 拉 斯 算 子 的 计算 在 浮 点 数 类 型 的 图 像 上 进行 。 与 上 节 一 样 , 要 对 结果 做 缩放 人 处理 才能 使 
其 正常 显示 。 缩放 基于 拉 普 拉 斯 算 子 的 最 大 绝对 值 ， 其 中 数值 0 对 应 灰 度 级 128。 类 中 有 一 个 方 
法 可 获得 下 面 的 图 像 表 示 : 


// 获得 拉 普 拉 斯 结果 ， 存 在 8 位 图 像 中 
// 0 表示 灰 度 级 128 
// 如 果 不 指定 缩放 比例 ， 那 么 最 大 值 会 放大 到 255 
// 在 调用 这 个 函数 之 前 ， 必 须 先 调用 computeLaplacian 
cv::Mat getLaplacianImage (double scale=-1.0) { 
if (scale<0) { 
double lapmin, lapmax; 
// 取得 最 小 和 最 大 拉 普 拉 斯 值 
cv: :minMaxLoc (laplace,&lapmin,&lapmax); 
// 缩放 拉 普 拉 斯 算 子 到 127 
scale= 127/ std::max(-lapmin,1lapmax); 
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} 

// 生成 灰 度 图 像 

cv::Mat laplaceImage; 
laplace.convertTo(laplaceImage,CV_8U,scale,128); 
return laplaceImage; 


} 
使 用 这 个 类 ， 从 7x7 内 核 计算 拉 普 拉 斯 图 像 的 方法 为 : 


// 用 LaplacianZC 类 计算 拉 普 拉 斯 算 子 

LaplacianZzC laplacian; 

laplacian.setAperture(7); // 7x7 的 拉 普 拉 斯 算 子 
cv::Mat flap= laplacian.computeLaplacian (image); 
laplace= laplacian.getLaplacianImage(); 


得 到 的 图 像 如 下 所 示 。 


存 了 Laplacian Image (7x7) 





6.6.2 ”实现 原理 
二 维 函 数 的 拉 普 拉 斯 算 子 的 正式 定义 为 “对 它 的 二 阶 导数 求 和 ”: 


泡 和 2 
laplacian(1) = 图 十 加 
Ox Oy 





如 采用 最 简单 的 形式 ， 它 可 以 近似 表示 为 这 个 3x3 内 核 : 
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与 Sobel 算 子 相 比 , 拉 普 拉 斯 算 子 在 计算 时 可 以 使 用 更 大 的 内 核 , 并 且 对 图 像 噪声 更 加 敏感 ， 





























因此 是 更 理想 的 选择 ( 除非 要 重点 考虑 计算 效率 )。 因 为 这 些 更 大 的 内 核 是 用 高 斯 函数 的 二 阶 导 


数 计算 的 ， 因 此 这 个 算 子 也 常 称 为 高 斯 - 拉 普 拉 斯 算 子 (Laplacian of Gaussian， 





LoG )S 注意 ， 拉 











普 拉 斯 算 子 内 核 的 值 的 累加 和 总 是 0。 这 保证 在 强度 值 恒定 的 区 域 中 ， 拉 普 拉 


斯 算 子 将 变 为 0。 














因为 拉 普 拉 斯 算 子 度量 的 是 图 像 函 数 的 曲率 ， 所 以 它 在 平坦 区 域 中 应 该 等 于 0。 
乍 一 看 ,好像 很 难 解释 拉 普 拉 斯 算 子 的 作用 。 从 内 核 的 定义 可 以 明显 看 出 ， 














任何 孤立 的 像素 


值 ( 即 与 周围 像素 差别 很 大 的 值 ) 都 会 被 拉 普 拉 斯 算 子 放大 ， 这 是 因为 该 算 子 对 噪声 非常 敏感 。 






































但 更 值得 关注 的 是 图 像 边缘 附近 的 拉 普 拉 斯 值 。 图 像 边缘 是 灰 度 值 在 不 同 区 域 之 间 快 速 过 渡 的 产 
物 。 观察 图 像 函 数 在 边缘 上 的 变化 (例如 从 暗 到 亮 的 边缘 ) 可 以 发 现 一 个 规律 : 如 果 灰 度 级 上 升 ， 


那么 肯定 存在 从 正 曲 率 ( 强度 值 开始 上 升 ) 到 负 曲 率 ( 强度 值 即将 到 达 高 地 ) 的 


平缓 过 渡 。 因 此， 
































如 果 拉 普 拉 斯 值 从 正 数 过 渡 到 负数 ( 反之 亦 然 )， 就 说 明 这 个 位 置 很 可 能 是 边缘 ， 或 者 说 边缘 位 
于 拉 普 拉 斯 函数 的 过 零点 。 为 了 说 明 这 个 观点 , 来 看 测试 图 像 的 一 个 小 窗口 中 的 拉 普 拉 斯 值 。 我 


























们 选取 城堡 塔楼 屋顶 的 底部 边缘 位 置 ， 具 体位 置 见 下 图 中 的 白色 小 框 。 








圈 Original Image with window ”一 口 xX 



































下 图 是 框 内 部 分 拉 普 拉 斯 图 像 (7x7 内 核 ) 的 数值 ( 除 以 100 ): 

-142 -64 -24 -56 -141 -263 -179 -99 -35 -5 5 
-225 -180 -85 -17 -33 -129 -265 -181 -97 -25 3 
-123 -51 -4 

-93 -59 -11 

-104 -48 -9 

-140 -26 -1 

-114 -4 -1 

-70 6 -5 

-59 14 3 

-50 28 18 

-46 22 3 

253 “1 =32 
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如 果 仔 细 妃 踪 拉 普 拉 斯 图 像 的 部 分 过 零点 (位 于 不 同 符号 的 像素 之 间 )， 就 可 以 得 到 一 条 曲 
线 ， 对 应 图 像 窗 口中 可 以 看 到 的 部 分 边缘 。 在 上 面 的 图 片 中 , 我 们 沿 着 过 零点 画 了 一 条 线 ， 它 对 
应 着 塔楼 的 边缘 , 在 选中 的 图 像 窗 口中 可 以 看 到 这 个 边缘 。 这 意味 着 可 以 检测 到 亚 像素 级 精度 的 
图 像 边缘 ,至少 从 理论 上 是 成 立 的 。 


在 拉 普 拉 斯 图 像 上 追踪 过 零点 曲线 需要 很 大 的 耐心 , 但 你 可 以 用 一 个 简化 的 算法 来 检测 过 零 
点 的 大 致 位 置 。 这 种 算法 首先 对 拉 普 拉 斯 图 像 冰 值 化 〈 采 用 的 阀 值 为 0 )， 得 到 正 数 和 负数 之 间 
的 分 割 区 域 , 这 两 个 区 域 之 间 的 边界 就 是 过 零点 。 所 以 , 我 们 可 以 用 形态 学 运算 来 提取 这 些 轮廓 ， 
也 就 是 用 拉 普 拉 斯 图 像 减 去 膨胀 后 的 图 像 (这 是 5.4 节 中 介绍 的 Beucher 梯度 ) 下 面 的 方法 实现 
了 这 个 算法 ， 生 成 了 一 个 过 零点 的 二 值 图 像 : 


// 获得 过 零点 的 二 值 图 像 
// 拉 普 拉 斯 图 像 的 类 型 必须 是 CV_32F 
cvV::Mat getZeroCrossings (cv::Mat laplace) { 
// 阅 值 为 0 
// 负数 用 黑色 
// 正 数 用 白色 
cv::Mat signImage; 
cv::threshold(laplace,signImage,0,255,cv::THRESH_BINARY); 






























































// 把 +/- 图 像 转换 成 CV_8U 

cv::Mat binary; 

signImage.convertTo (binary,CV_8U); 

// 膨胀 +/- 区 域 的 二 值 图 像 

cv::Mat dilated; 
cv::dilate(binary,dilated,cv::Mat ()); 


// 返回 过 鹤 点 的 轮廓 
return dilated-binary; 


} 
得 到 的 结果 是 这 个 二 值 分 布 图 。 








圈 Zero-crossings EE 回 xX 








' 和 125 
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可 以 看 出 ， 拉 善 拉 斯 的 过 零点 方法 检测 了 所 有 的 边缘 ,不 能 区 分 强 边缘 和 弱 边 缘 。 我 们 还 知 
道 拉 普 拉 斯 算 子 对 噪声 非常 敏感 。 还 有 一 点 很 有 意思 ， 有 些 可 见 边 缘 是 由 于 压缩 失真 产生 的 。 正 
是 由 于 这 些 原因 , 拉 普 拉 斯 算 子 才 检测 出 了 那么 多 的 边缘 。 在 实际 检测 边缘 时 ( 例如 梯度 很 大 的 
过 零点 才能 确认 的 边缘 )， 只 会 把 拉 普 拉 斯 算 子 与 其 他 算 子 结合 使 用 。 第 8 章 将 会 讲 到 ， 在 不 同 
比例 下 检测 兴趣 点 时 ， 拉 普 拉 斯 算 子 和 其 他 二 阶 算 子 是 非常 有 用 的 。 































































































6.6.3 扩展 阅读 

拉 普 拉 斯 算 子 是 一 种 高 通 滤波 器 。 你 可 以 将 多 个 低 通 滤波 器 结合 ,近似 模拟 出 它 的 功能 。 但 
首先 要 用 到 图 像 增 强 的 概念 ， 第 2 章 曾 讨论 过 这 个 概念 。 

1. 用 拉 普 拉 斯 算 子 增强 图 像 的 对 比 度 


通过 从 图 像 中 减 去 它 的 拉 普 拉 斯 图 像 ， 可 以 增强 图 像 的 对 比 度 ， 这 就 是 我 们 在 2.6 节 中 使 用 
的 方法 。 当 时 用 到 了 这 个 内 核 





































































































它 等 于 1 减 去 拉 普 拉 斯 内 核 (也 就 是 原始 图 像 减 去 它 的 拉 普 拉 斯 图 像 )。 


2. 高 斯 差分 


6.2 节 中 的 高 斯 滤波 器 可 提取 图 像 的 低频 成 分 。 我 们 知道 高 斯 滤波 器 过 滤 的 频率 范围 取决 于 
参数 o 的 值 ， 这 个 参数 控制 了 滤波 器 的 宽度 。 现在 用 两 个 不 同 带宽 的 高 斯 滤波 器 对 一 幅 图 像 做 滤 
波 ， 然 后 将 这 两 个 结果 相 减 ， 就 能 得 到 由 较 高 的 频率 构成 的 图 像 。 这 些 频 率 被 一 个 滤波 器 保留 ， 
被 另 一 个 滤波 器 丢弃 。 这 种 运算 称 为 高 斯 差分 (Difference of Gaussians，DoG )， 代 码 如 下 所 示 : 












































Cv::GaussianBlur (image,gauss20,cv::Size(),2.0) 
cv::GaussianBlur (image,gauss22,cv::Size(),2.2) 


// 计算 高 斯 差分 
cv::subtract (gauss22, gauss20, dog, cv::Mat(), CV_32F); 


// 计算 DoG 的 过 零点 
zeros= laplacian.getZeroCrossings (dog); 


最 后 一 行 计算 DoG 算 子 的 过 零点 ， 得 到 如 下 图 像 。 
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事实 上 ， 如 果 选 择 了 合适 的 o 值 ，DoG 算 子 其 实 可 以 很 好 地 模拟 LoG 滤波 器 ， 这 一 点 可 以 
被 证 明 。 另 外 ， 如 果 从 一 个 c 值 的 增长 队列 中 选取 连续 的 数据 对 ， 用 以 计算 一 系列 的 高 斯 差分 ， 
就 可 以 得 到 该 图 像 的 尺度 空间 表示 法 ,这 种 多 尺度 表示 法 非常 有 用 ,例如 用 于 检测 尺度 不 变 特征 ， 
第 8 章 将 详细 解释 。 




















6.6.4 参阅 
口 8.4 节 将 使 用 拉 普 拉 斯 算 子 和 DoG 来 检测 尺度 不 变 特征 。 


提取 直线 、 轮 廓 和 区 坡 








本 章 包 括 以 下 内 容 : 


口 用 Canny 算 子 检测 图 像 轮 廓 ; 
口 用 霍 夫 变 换 检测 直线 ; 

口 点 集 的 直线 拟 合 ; 

口 提取 连续 区 域 ; 

口 计算 区 域 的 形状 描述 子 。 














7.1 简介 


要 进行 基于 内 容 的 图 像 分 析 ， 就 必须 从 构成 图 像 的 像素 集中 提取 出 有 意义 的 特征 。 轮 廓 、 直 
线 、 斑 点 等 就 是 基本 的 图 像 图 元 , 可 以 用 来 描述 图 像 包含 的 元 素 。 本 章 将 介绍 如 何 提取 这 些 图 元 。 














7.2 用 Canny 算 子 检测 图 像 轮 廓 


上 一 章 讲 解 了 如 何 检测 图 像 的 边缘 , 尤其 是 通过 对 梯度 幅 值 的 阔 值 化 , 获得 图 像 中 主要 边缘 
的 二 值 分 布 图 。 边 缘 勾 画 出 了 图 像 的 元 素 ， 含 有 重要 的 视觉 信息 。 正 因 如 此 , 边缘 可 应 用 于 目标 
识别 等 领域 。 但 是 简单 的 二 值 边 缘分 布 图 有 两 个 主要 缺点 : 第 一 , 检测 到 的 边缘 过 厚 , 这 加 大 了 
识别 物体 边界 的 难度 ; 第 二 ,也 是 更 重要 的 , 通常 不 可 能 找到 既 低 到 足以 检测 到 图 像 中 所 有 重要 
边缘 ,又 高 到 足以 避免 产生 太 多 无 关 紧要 边缘 的 阔 值 。 这 是 一 个 难以 权衡 的 问题 ,Canny 算法 试 
图 解决 这 个 问题 。 











7.2.1 如 何 实现 


Canny 算法 可 通过 OpenCV 的 cv: :Canny 函数 实现 。 使 用 这 个 算法 时 ， 需 要 指定 两 个 阐 值 
(后 面 会 解释 原因 )。 调 用 函数 的 方法 如 下 所 示 : 
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// 应 用 Canny 算法 
CMS ODS 





cv: :Canny (image, // 灰 度 图 像 
contours，// 输出 轮廓 
1 // 低 阅 值 
350); // 高 阔 值 
先 来 看 这 幅 图 像 。 





由 了 Original Image 全 图 XxX 




















注意 ,因为 正常 的 结果 是 用 非 零 像素 表示 轮廓 的 , 所 以 这 里 在 显示 轮廓 时 做 了 反 转 处 理 。 上 
面 显示 的 图 像 只 是 像素 值 为 255 的 轮廓 。 
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7.2.2 ”实现 原理 


用 两 个 不 同 的 闵 值 来 判断 哪个 点 


> 全 已 

















必 于 轮廓 ， 一 个 是 低 浆 值 ， 一 个 是 高 闵 值 。 





Canny 算 子 通常 基于 第 6 章 介绍 的 Sobel 算 子 ， 虽然 也 可 使 用 其 他 的 梯度 算 子 。 它 的 核心 理 


包含 所 有 属于 重要 图 像 轮廓 的 边缘 像素 。 例如 ,将 前 面 例子 中 指 





选择 低 闵 值 时 , 要 保 i 





念 是 
已 用 
定 的 低 冰 值 应 用 到 Sobel 算 子 返回 的 图 像 上 ， 可 得 到 如 下 边缘 分 布 图 。 
口 xX 


国 和 Sobel (low threshold) 














松 的 阔 值 ， 所 以 很 多 并 不 需要 的 





or 
个 宽 




















可 以 看 到 , 道路 的 边缘 非常 清晰 。 但 因为 这 里 使 用 了 一 





边缘 也 被 检测 出 来 了 。 而 第 二 个 阔 值 的 作用 就 是 界定 重要 轮廓 的 边缘 , 排除 掉 异 常 的 边缘 。 例 如 ， 


在 Sobel 边缘 分 布 图 上 应 用 上 例 中 的 高 阔 值 后 ， 将 得 到 如 下 结果 。 
TS 











由 了 Sobel (high threshold) 口 xX 
pp 
加 。. 
Rd " 
名 了 六 2 ; 
~. 一 一 -一 一 
一 本 下。 
以 NS 
定 属于 本 场景 中 的 重要 轮廓 。 





























I 











Canny 算法 将 结 
上 只 保留 具有 连续 路 径 的 边缘 点 , 同时 把 





现在 得 到 的 图 像 中 有 些 边缘 是 断裂 的 ， 但 是 这 些 可 见 的 边缘 肯定 
合 这 两 种 边缘 分 布 图 ， 生 成 最 优 的 轮廓 分 布 图 。 具体 做 法 是 在 低 阐 值 边缘 分 布 图 
那些 边缘 点 连接 到 属于 高 阔 值 边缘 分 布 图 的 边缘 上 。 这 
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样 一 来 ,高 闵 值 分 布 图 上 的 所 有 边缘 点 而 低 阔 值 分 布 图 上 边缘 点 的 扳 立 链 全 部 被 
移 除 。 这 是 一 种 很 好 的 折 中 方案 ， 只 要 指定 适当 的 闽 值 ， 就 能 获得 高 质量 的 轮廓 。 这 种 基于 两 个 
浆 值 获得 二 值 分 布 图 的 策略 被 称 为 滞后 阔 值 化 ， 可 用 于 任何 需要 用 阔 值 化 获得 二 值 分 布 图 的 场 
景 。 但 是 它 的 计算 复杂 度 比 较 高 。 


另外 ，Canny 算法 用 了 一 个 额外 的 策略 来 优化 边缘 分 布 图 的 质量 。 在 进行 滞后 阔 值 化 之 前 ， 
如 果 梯 度 幅 值 不 是 梯度 方向 上 的 最 大 值 ， 那么 对 应 的 边缘 点 都 会 被 移 除 (前面 讲 过 ,梯度 的 方向 
总 是 与 边缘 垂直 的 )。 因 此 ， 这 个 方向 上 梯度 的 局 部 最 大 值 对 应 着 轮 廊 最 大 强度 的 位 置 。 这 是 一 
个 细 化 轮廓 的 运算 , 它 创建 的 轮廓 宽度 只 有 一 个 像素 。 这 也 解释 了 为 什么 Canny 轮廓 分 布 图 的 边 
缘 比 较 薄 。 



















































































7.2.3 ”参阅 


口 J. Canny 于 1986 年 发 表 在 IEEE Transactions on Pattern Analysis and Image Understanding 
第 6 期 第 18 卷 的 经 典 论 文 “A computational approach to edge detection”。 


7.3 ”用 霍 夫 变 换 检测 直线 


人 造 世界 中 充满 了 平面 和 线性 结构 , 因此 直线 在 图 像 中 是 很 常见 的 。 它 们 是 很 有 意义 的 特征 ， 
在 目标 识别 和 图 像 理解 领域 起 着 非常 重要 的 作用 。 霍 夫 变换 ( Hough transform ) 是 一 种 常用 于 检 
测 此 类 具体 特征 的 经 典 算法 。 该 算法 起 初 用 于 检测 图 像 中 的 直线 ， 后 来 经 过 扩展 ， 也 能 检测 其 他 
简单 的 图 像 结构 。 





















































7.3.1 准备 工作 
在 霍 夫 变换 中 ， 用 这 个 方程 式 表 示 直 线 ; 
DO=XYcosO+)ySnO 


参数 p 是 直线 与 图 像 原点 (左上 角 ) 的 距离 ，9 是 直线 与 垂直 线 间 的 角度 。 在 这 种 表示 法 中 ， 
图 像 中 的 直线 有 一 个 0~x( 弧度 ) 的 角 0， 而 半径 p 的 最 大 值 是 图 像 对 角 线 的 长 度 。 例 如 下 面 的 
一 组 线 : 
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像 直线 1 这 样 的 垂直 线 ， 其 角度 值 0 等 于 0， 而 水 平 线 ( 例如 直线 5 ) 的 0 等 于 mw2。 因 此 直 
线 3 的 0 等 于 m4， 直 线 4 大约 是 0.7x。 为 了 表示 [0, zd] 范围 内 的 所 有 0 值 ， 半 径 值 可 以 用 负数 表 
是 负数 。 


























7.3.2 ”如 何 实现 


针对 用 于 检测 直线 的 霍 夫 变换 , OpenCYV 提供 了 两 种 实现 方法 ,基础 版 是 cv: :HoughLines。 
它 输入 的 是 一 个 二 值 分 布 图 ， 其 中 包含 一 批 像素 点 〈 用 非 零 像 素 表 示 )， 对 济 后 点 构成 了 直 
线 。 它 通常 是 一 个 已 经 生成 的 边缘 分 布 图 ， 例 如 Canny 算 子 生成 的 分 布 图 。cv: :HoughLines 
函数 输出 的 是 一 个 cv: :Vec2E 类 型 元 素 组 成 的 向 量 ， 每 个 元 素 是 一 对 序 点 数 ， 表 示 检 测 到 的 直 
线 的 参数 ， 即 (p, 9)。 下 面 是 使 用 这 个 函数 的 例子 ， 首 先 用 Canny 算 子 获得 图 像 轮廓 ， 然 后 用 霍 
夫 变换 检测 直线 : 

// 应 用 Canny 算法 

cvV: :Mat Contours 

cvV::Canny (image,contours,125,350); 

// 用 堆 夫 变换 检测 直线 

std: :vector<cv: :Vec2f> lines; 

cv::HoughLines (test,lines, 1, 

PI/180， // 步 长 
G60) // 最 小 投票 类 

第 3 个 和 第 4 个 参数 表示 搜索 直线 时 用 的 步 长 。 在 本 例 中 ， 半 径 步 长 为 1， 表示 函数 将 搜索 
所 有 可 能 的 半径 ; 角度 步 长 为 x/180， 表 示 函 数 将 搜索 所 有 可 能 的 角度 。 最 后 一 个 参数 的 功能 将 
在 下 一 节 介绍 。 选 用 特定 的 参数 后 ,可 以 从 上 一 节 的 道路 图 像 中 检测 到 多 条 直线 。 为 了 让 检测 结 
果 可 视 化 , 我 们 在 原始 图 像 上 绘制 这 些 直 线 。 但 是 有 一 点 需要 强调 , 这 个 算法 检测 的 是 图 像 中 的 
直线 而 不 是 线段 , 它 不 会 给 出 直线 的 端点 。 因 此, 我 们 绘制 的 直线 将 穿 透 整 幅 图 像 。 具体 做 法 是 ， 
对 于 垂直 方向 的 直线 ,计算 它 与 图 像 水 平 边界 ( 即 第 一 行 和 最 后 一 行 ) 的 交叉 点 ， 然 后 在 这 两 个 
交叉 点 之 间 画 线 。 水 平方 向 的 直线 也 类 似 ， 只 不 过 用 第 一 列 和 最 后 一 列 。 画 线 的 函数 是 
cv::line。 需 要 注意 的 是 ， 即 使 点 的 坐标 超出 了 图 像 范 围 ， 这 个 函数 也 能 正确 运行 ， 因 此 没 必 
要 检查 交叉 点 是 否 在 图 像 内 部 。 通 过 遍历 直线 向 量 画 出 所 有 直线 ， 代 码 如 下 所 示 : 


std: :Vector<cV::Vec2f>::const_iterator it= lines.begin(); 
while (it!=lines.end()) { 













































































































































































float rho= (*it)[0]; // 第 一 个 元 素 是 距离 rho 
float theta= (*it) [1]; // 第 二 个 元 素 是 角度 theta 


if (theta < PI/4. || theta > 3.*PI/4.) { // 垂直 线 (大 致 ) 


// 直线 与 第 一 行 的 交叉 点 

cv::Point pt1(rho/cos (theta),0); 

// 直线 与 最 后 一 行 的 交 又 点 

cv::Point pt2((rho-result.rows*sin(theta))/ 
cos (theta),result.rows); 
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// 画 白 色 的 线 
cv::line( image, ptl1, pt2, cv::Scalar(255), 1); 
else { // 水 平 线 (大 致 ) 


be 


// 直线 与 第 一 列 的 交 又 点 
cv::Point pt1(0,rho/sin(theta)); 
// 直线 与 最 后 一 列 的 交叉 点 
Cv::Point pt2(result.cols, 
(rho-result.cols*cos (theta))/sin(theta)); 
// 画 白 色 的 线 
cv::line(image, pt1, pt2, cv::Scalar(255), 1); 
} 
++it; 


} 
得 到 的 结果 如 下 所 示 。 





图 Lines with Hough 














可 以 看 出 , 霍 夫 变 换 只 是 寻找 图 像 中 边缘 像素 的 对 齐 区 域 。 因为 有 些 像素 只 是 碰巧 排 成 了 直 
线 , 所 以 霍 夫 变 换 可 能 产生 错误 的 检测 结果 。 也 可 能 因为 多 条 参数 相近 的 直线 穿 过 了 同一 个 像素 
对 齐 区 域 ， 而 导致 检测 出 重复 的 结果 。 


为 解决 上 述 问 题 并 检测 到 线段 ( 即 包含 端点 的 直线 )， 人 们 提出 了 霍 夫 变换 的 改进 版 。 这 就 
是 概率 霍 夫 变换 , 在 OpenCV 中 通过 cv: :HoughLinesP 函数 实现 。 我 们 用 它 创建 LineFinder 
类 ， 封 装 函 数 的 参数 ; 


















































class LineFinder { 
private: 


// 原始 图 像 


cv::Mat img; 





// 包含 被 检测 直线 的 说 点 的 向 量 
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std: :vector<cv::Vec4i> lines; 


// 累加 器 分 辨 率 参 数 
double deltaRho; 
double deltaTheta; 


// 确认 直线 之 前 必须 收 到 的 最 小 投票 数 


int minVote; 


// 直线 的 最 小 长 度 
double minLength; 


// 直线 上 允许 的 最 大 空隙 


double maxGap; 


public: 
// 默认 累加 器 分 辨 率 是 1 像素 ，1 度 
// 没有 空隙， 没有 最 小 长 度 
LineFinder() : qeltaRho(1)，dqeltaTheta(PI/180) ， 
minVote(10), minLength(0.), maxGap(0.) {} 


看 一 下 对 应 的 设置 方法 : 


// 设置 累加 器 的 分 辨 率 
void setAccResolution(double dRho, double dTheta) { 


deltaRho= dRho; 
deltaTheta= dTheta; 
} 


// 设置 最 小 投票 数 
void setMinVote(int minv) { 


minVote= minv; 


} 


// 设置 直线 长 度 和 空隙 
void setLineLengthAndGap (double length, double gap) { 


minLength= length; 
maxGap= gap; 


) 
用 上 述 方法 ， 检 测 霍 夫 线 段 的 代码 如 下 所 示 : 
// 应 用 概率 瞧 夫 变换 


std: :vector<cv::Vec4i> findLines (cvV: :Mat& binary) { 


lines.clear (); 

cv: :HoughLinesP (binary,lines, 
deltaRho, deltaTheta, minVote, 
minLength, maxGap); 


return lines; 
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这 个 方法 返回 cv: :Vec4i 类 型 的 向 量 ,包含 每 条 被 检测 线段 的 开始 端点 和 结束 端点 的 坐标 。 
我 们 可 以 用 下 面 的 方法 在 图 像 上 绘制 检测 到 的 线段 : 
// 在 图 像 上 绘制 检测 到 的 直线 


void drawDetectedLines(cv::Mat &image, 
OVSdoalar GOlOr=ev: Calar (255;»255,255)) 荆 


// 画 直 线 


std: :Vector<CcV::Vec41>::const_iterator it2= lines.begin(); 
while (it2!=lines.end()) { 


eV: PoLint DELC(ALE2) LOD S(*LE2) Ed) 
CvsPoint Bt2((*iE2) 2] (it2) [3]); 


cv::line( image, ptl1l, pt2, color); 
++it2; 


} 
输入 图 像 不 变 ， 可 以 用 下 面 的 次 序 检测 直线 : 


// 创建 LineFinder 类 的 实例 
LineFinder finder; 





// 设置 概率 霍 夫 变换 的 参数 
finder.setLineLengthAndGap (100,20) ; 
finder.setMinVote(60); 


// 检测 直线 并 画 线 
std: :Vector<cV::Vec41> lines= finder.findLines (contours); 
finder.drawDetectedLines (image); 


上 面 的 代码 得 到 如 下 结果 。 





图 a Lines with HoughP 
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7.3.3 ”实现 原理 


霍 夫 变换 的 目的 是 在 二 值 图 像 中 找 出 全 部 直线 , 并 且 这 些 直 线 必须 穿 过 足够 多 的 像素 点 。 它 
的 处 理 方法 是 , 检查 输入 的 二 值 分 布 图 中 每 个 独立 的 像素 点 , 识别 出 穿 过 该 像素 点 的 所 有 可 能 
线 。 如 果 同 一 条 直线 穿 过 很 多 像素 点 ， 就 说 明 这 条 直线 明显 到 足以 被 认定 。 


为 了 统计 某 条 直线 被 标识 的 次 数 , 霍 夫 变 换 使 用 了 一 个 二 维 累 加 器 。 累 加 器 的 大 小 依据 (p, 0) 
的 步 长 确定 , 其 中 (o, 9) 参 数 用 来 表示 一 条 直线 。 为 了 说 明 霍 夫 变换 的 功能 ,我 们 建立 一 个 180x200 
的 矩阵 (对 应 0 的 步 长 为 W180, p 的 步 长 为 1 ): 

// 创建 霍 夫 累 加 器 

// 这 里 的 图 像 类 型 为 uchar; 实际 使 用 时 应 该 用 int 

eaMat a66.(200%, 180,CV. 8U ea9GaTaE (07 

累加 器 是 不 同 于 (p, 9) 值 的 映射 表 。 因 此 , 矩阵 的 每 个 人 口 都 对 应 一 条 特定 的 直线 。 现 在 假定 
某 个 像素 点 的 坐标 为 (50,30), 这 样 就 能 通过 循环 遍历 所 有 可 能 的 0 值 ( 步 长 w/180 ), 并 计算 对 应 
的 ( 四舍五入 )p 值 ， 标 识 出 穿 过 这 个 像素 点 的 全 部 直线 : 

// 选取 一 个 像素 点 

it KS50, Yad 


// 循环 遍历 所 有 角度 


for (int i=0; i<180; i++) { 

































































double theta= i*PI/180.; 


// 找到 对 应 的 rho 值 

double rho= x*std::cos(theta)+y*std::sin(theta); 
// j 对 应 -100~100 的 rho 

int j= static cast<int>(rho+100.5); 





Sto eaout, < Ta Wn "I < CLEendl: 


// 增值 累加 器 
acc.at<uchar>(]j, 工 )++:， 


} 

每 次 计算 得 到 (p, 9) 对 后 , 其 对 应 的 累加 器 入 口 的 数值 就 会 增加 , 表示 对 应 的 直线 穿 过 了 图 像 
中 的 某 个 像素 点 〈 或 者 说 每 个 像素 点 为 一 批 候 选 直线 投票 )。 如 果 把 累加 器 作为 图 像 显示 ( 翻转 
过 来 ， 并 乘 以 100， 以 便 数 字 1 能 显示 )， 结 果 如 下 所 示 。 
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上 面 的 曲线 表示 穿 过 这 个 点 的 所 有 直线 的 集合 。 现 在 用 像素 点 (30, 10) 重 复 上 述 过 程 , 得 到 的 
累加 器 如 下 所 示 。 








可 以 看 到 , 这 两 条 曲线 在 一 个 位 置 相交 ,这 个 位 置 表示 对 应 的 直线 通过 了 这 两 个 像素 点 。 累 
加 器 的 对 应 和 人 口 收 到 了 两 次 投票 ， 表 明 有 两 个 像素 点 在 这 条 直线 上 。 


如 果 对 二 值 分 布 图 中 的 所 有 像素 点 重复 上 述 过 程 , 那么 同一 条 直线 上 的 像素 点 会 使 累加 器 的 
同一 个 入口 增长 很 多 次 。 最 后 ， 为 了 检测 图 像 中 的 直线 ( 即 像素 点 对 齐 的 位 置 )， 只 需要 标识 出 
累加 器 中 的 局 部 限 值 ， 该 累加 器 用 于 接收 大 量 投票 数 。cv: :HoughLines 困 数 的 最 后 一 个 参数 
表示 最 低 投 票数 ， 只 有 不 低 于 这 个 数 的 直线 才 会 被 检测 到 。 这 表明 最 低 投票 数 越 小 , 检测 到 的 直 
线 数量 就 越 多 。 


如 果 把 例子 中 的 数值 降 为 50， 检 测 到 的 直线 就 如 下 图 所 示 。 
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图 和 Lines with Hough 








' N 


概率 霍 夫 变换 对 基本 算法 做 了 一 些 修 正 。 首 先 , 概率 霍 夫 变换 在 二 值 分 布 图 上 随机 选择 像素 
点 ,而 不 是 系统 性 地 逐 行 扫描 图 像 。 一 旦 累加 器 的 某 个 入 口 达到 了 预 设 的 最 小 值 ， 就 沿 着 对 应 的 


直线 扫描 图 像 ， 并 移 除 在 这 条 直线 上 的 所 有 像素 点 ( 包括 还 没 投票 的 像素 点 )。 这 个 扫描 过 程 还 
检测 可 以 接受 的 线段 长 度 。 为 此 , 算法 定义 了 两 个 额外 的 参数 : 一 个 是 允许 的 线段 最 小 长 度 ， 另 
一 个 是 组 成 连续 线段 时 允许 的 最 大 像素 间距 。 这 个 额外 的 步骤 增加 了 算法 的 复杂 度 , 但 也 得 到 了 
一 定 的 补偿 一 一 由 于 在 扫描 直线 的 过 程 中 已 经 清除 了 部 分 像素 点 , 因此 减少 了 投票 过 程 中 用 到 的 
像素 点 。 




















7.3.4 扩展 阅读 


霍 夫 变换 也 能 用 来 检测 其 他 几何 物体 。 事 实 上 , 任何 可 以 用 一 个 参数 方程 来 表示 的 物体 ,都 
很 适合 用 堆 夫 变换 来 检测 。 还 有 一 种 泛 化 替 夫 变换 ， 可 以 检测 任何 形状 的 物体 。 


检测 圆 
圆 的 参数 方程 为 : 





(x—x0) +(y—yo) 


这 个 方程 包含 三 个 参数 ( 圆 半 径 和 圆心 坐标 ), 这 表明 需要 使 用 三 维 的 累加 器 。 但 一 般 来 说 ， 
累加 器 的 维 数 越 多 ， 霍 夫 变换 就 越 复杂 ,可靠 性 也 越 低 。 在 本 例 中 ,每 个 像素 点 都 会 使 累加 器 增 
加 大 量 的 入口 。 因 此， 精确 地 定位 局 部 尖峰 值 会 变 得 更 加 困难 。 为 解决 这 个 问题 ， 人们 提出 了 各 
种 策略 。OpenCV 采用 的 策略 是 在 用 霍 夫 变 换 检测 圆 的 实现 中 使 用 两 轮 第 选 。 第 一 轮 往 选 使 用 一 
个 二 维 累 加 器 ,， 找 出 可 能 是 圆 的 位 置 。 因 为 圆周 上 像素 点 的 梯度 方向 与 半径 的 方向 是 一 致 的 , 所 
以 对 每 个 像素 点 来 说 , 累加 器 只 对 沿 着 梯度 方向 的 入 口 增加 计数 (根据 预先 定义 的 最 小 和 最 大 半 
径 值 ) 一 旦 检测 到 可 能 的 圆心 ( 即 收 到 了 预定 数量 的 投票 )， 就 在 第 二 轮 筛选 中 建立 半径 值 范 轩 
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的 一 维 直方 图 。 这 个 直方 图 的 尖峰 值 就 是 被 检测 圆 的 半径 。 
实现 上 述 策略 的 cv: :Houghcircles 函数 将 Canny 检测 与 霍 夫 变换 结合 , 它 的 调用 方法 是 : 

















Cv::GaussianBlur (image, image,cv::Size(5,5),1.5); 
std: :vector<cv: :Vec3f> circles; 
cv: :HoughCircles (image, circles, cv::HOUGH_ GRADIENT, 
2 // 累加 器 分 辨 率 (图 像 尺 十 /2) 
50， // 两 个 圆 之 间 的 最 小 距离 
200， // Canny 算 子 的 高 浆 值 
100， // 最 少 投票 数 








100); / 


As 


最 小 和 最 大 半径 


有 一 点 需要 反复 提醒 : 在 调用 cv: :Houghcircles 函数 之 前 ， 要 对 图 像 进行 平滑 化 ， 以 减 
少 图 像 中 可 能 导致 误 判 的 噪声 。 检 测 的 结果 存放 在 cv: :Vec3f 实例 的 向 量 中 。 前 面 两 个 数值 是 
圆心 坐标 ， 第 三 个 数值 是 半径 。 


编写 本 书 时 ，cv: :HOUGH_GRADIENT 是 唯一 可 用 的 参数 , 它 代表 两 轮 科 选 的 圆 形 检测 方法 。 
第 四 个 参数 定义 了 累加 需 的 分 辩 率 , 它 是 一 个 分 割 比 例 。 例 如 , 数值 2 表示 累加 器 是 图 像 尺 寸 的 

半 。 下 一 个 参数 是 两 个 被 检测 的 圆 之 间 的 最 小 像素 距离 。 再 下 一 个 参数 是 Canny 边缘 检 测 器 的 
高 国 值 ， 低 净值 通常 设置 为 高 浆 值 的 一 半 。 第 七 个 参数 是 圆心 位 置 必 须 收 到 的 最 少 投票 数 ， 只 有 
在 第 一 轮 筛 选 时 收 到 的 投票 数 超过 该 值 , 才能 作为 候选 的 圆 进入 第 二 轮 入 选 。 最 后 两 个 参数 是 被 
检测 圆 的 最 小 和 最 大 半径 值 。 可 以 看 出 ， 这 个 函数 包含 的 参数 太 多 了 ， 很 难 调节 。 


得 到 存放 圆 的 向 量 后 ， 就 可 以 在 图 像 上 夯 出 这 些 圆 。 方 法 是 迭代 遍历 该 向 量 ， 并 调用 
cv: :circle 函数 ， 传人 获得 的 参数 : 


std::vector<cv: :Vec3f>::const_iterator itc= circles.begin(); 

















































































































while (itc!=circles.end()) { 


cv::circle(image, 





cv::Point ((*itc) [0], (*itc)[1]), // 圆心 
(OZ // 半径 
cv::Scalar(255)，// 颜色 
2 // 厚度 


++itc; 


} 
使 用 上 述 方法 和 参数 在 测试 图 像 上 执行 ， 得 到 如 下 结果 。 
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男子 Detected Circles 回 Xx 











7.3.5 参阅 


口 C. Galambos、J. Kittler 和 J. Matas 于 2002 年 发 表 在 IEE Vision Image and Signal Processing 
第 148 卷 第 3 期 第 158 页 至 第 165 页 上 的 文章 “Gradient-based Progressive Probabilistic 
Hough Transform” 对 堆 夫 变换 的 方法 进行 了 大 量 引 用 ， 并 且 描 述 了 OpenCV 中 实现 的 概 
率 算法 。 

口 H.K. Yuen、J.Princen、J.Illingworth 和 J. Kittler 于 1990 年 发 表 在 Image and Vision Computing 
第 8 卷 第 1 期 第 71 页 至 第 77 页 上 的 文章 “Comparative Study of Hough Transform Methods 
for Circle Finding” 描 述 了 用 霍 夫 变换 检测 圆 的 各 种 策略 。 





7.4 点 集 的 直线 拟 合 


在 某 些 应 用 程序 中 , 光 是 检测 出 图 像 中 的 直线 还 不 够 , 还 需要 精确 地 估计 直线 的 位 置 和 方向 。 
本 节 将 介绍 如 何 拟 合 出 最 适合 指定 点 集 的 直线 。 


























7.4.1 如 何 实现 


首先 需要 识别 出 图 像 中 靠近 直线 的 点 。 使 用 一 条 上 节 检 测 到 的 直线 。 把 cv: :HoughLinesP 
检测 到 的 直线 存放 在 sta: :vector<cv: :Vec4i> 类 型 的 变量 1ines 中 。 为 了 提取 出 靠近 这 条 
直线 (我 们 叫 它 第 一 条 直线 ) 的 点 集 ， 可 以 继续 以 下 步骤 ; 在 黑色 图 像 上 画 一 条 白色 直线 ， 并 且 
穿 过 用 于 检测 直线 的 Canny 轮廓 图 。 这 可 以 用 这 些 语句 实现 : 

int n=0; // 选用 直线 0 

// 黑色 图 像 


cv::Mat oneline(contours.size(),CV_8U,cv::Scalar (0)); 
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// 和 白色 直线 


cv::line(oneline, cv::Point (lines[n] [0],lines[n] [1]), 
cv::Point (lines[n] [2]， 
lines[n] [3]), cv::Scalar(255), 
3); // 直线 宽度 

// 轮廓 与 白色 直线 进行 “与 ”运算 

cv::bitwise and(contours,oneline,oneline); 


结果 是 一 个 包含 了 与 指定 直线 相关 的 点 的 图 像 。 为 了 引入 公差 ,我 们 画 了 具有 一 定 宽度 (这 
里 是 3 ) 的 直线 ， 因 此 位 于 指定 邻 域内 的 点 都 能 被 接受 。 


得 到 的 图 像 如 下 所 示 ( 为 了 提升 显示 效果 ， 对 其 做 了 反 转 )。 

















= 口 XxX 





国生 One line 

















然后 可 以 把 这 些 集合 内 点 的 坐标 插入 到 cv: : Point 对 象 的 std: :vector 类 型 中 (也 可 以 
使 用 浮 点 数 坐 标 ， 即 cv: : Point2f )， 代 码 如 下 所 示 : 


std: :vector<cv::Point> points; 


// 选 代 遍 历 像素 ， 得 到 所 有 点 的 位 置 


for( int y = 0; y < oneline.rows; y++ ) { 
// 行 y 
uchar* rowPtr = oneline.ptr<uchar>(y); 
for( int x = 0; x < oneline.cols; x++ ) { 
// 列 x 


// 如 果 在 轮廓 上 


if (rowPtr[x]) { 


points.push back(cv::Point (x,y)); 
} 


} 
} 
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得 到 点 集 后 ， 利 用 这 些 点 集 拟 合 出 直线 。 利 用 OpenCy 的 函数 cv: :fitLine 可 以 很 轻松 地 
得 到 最 优 的 拟 合 直 线 : 





cv::Vec4f line; 

cv::fitLine(points,1line, 
cv::DIST L2，// 距离 类 型 
0, // L2 距离 不 用 这 个 参数 
0.01,0.01); // 精度 


上 述 代码 把 直线 方程 式 作为 参数 ， 形 式 是 一 个 单位 方向 向 量 (cvVec4f 的 前 两 个 数值 ) 和 
直线 上 一 个 点 的 坐标 (cvvec4f 的 后 两 个 数值 )。 最 后 两 个 参数 是 所 需 的 直线 精度 。 


直线 方程 式 通常 用 于 某 些 属性 的 计算 〈 例如 需要 精确 参数 的 校准 )。 为 了 演示 它 的 用 法 ， 也 
为 了 验证 计算 的 直线 是 否 正确 ,我 们 在 图 像 上 模拟 一 条 直线 。 这 里 只 是 随意 画 了 一 条 长 度 为 100 
像素 、 宽 度 为 2 像素 的 黑色 线段 (为 了 便于 观察 ): 


int x0= line[2]; // 直线 上 的 一 个 点 

int y0= line[3]; 

int xl= x0+100*1line[0]; // 加 上 长 度 为 100 的 向 量 

int yl= y0+100*1line[1]; // (用 单位 向 量 生成 ) 

// 绘制 这 条 线 

cv::line(image,cv::Point (x0,y0),cv::Point (xl,y1), 
0.2); // 颜色 和 宽度 


下 图 显示 了 与 道路 边界 非常 一 致 的 直线 。 















































团 Fitted line 








7.4.2 ”实现 原理 


点 集 的 直线 拟 合 是 一 个 经 典 数 学 问题 。OpenCV 的 实现 方法 是 使 每 个 点 到 直线 的 距离 之 和 最 
小 化 ,在 众多 用 于 计算 距离 的 函数 中 , 欧 几 里 得 距离 的 计算 速度 最 快 ,所 用 参数 为 cv: :DIST_L2。 
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这 一 选项 对 应 了 标准 的 最 小 二 乘法 直线 拟 合 。 如 有 果 点 集中 包含 了 孤立 点 ( 即 不 属于 直线 的 点 )， 
可 以 选用 其 他 距离 函数 ， 以 减少 远 距离 的 点 带 来 的 影响 。 最 小 化 计算 的 基础 是 M 估算 法 技术 ， 
它 采 用 迭代 方式 解决 加 权 最 小 二 乘法 问题 ， 其 中 权重 与 点 到 直线 的 距离 成 反比 。 


我 们 也 可 以 用 这 个 函数 在 三 维 点 集 上 拟 合 直 线 。 这 时 输入 的 是 cv: :Point3i 或 cv: :Point3f 
对 象 的 集合 ， 输 出 的 是 一 个 stda: :Vec6f 实例 。 


































































































7.4.3 扩展 阅读 
cv::fitEBllipse 了 荫 数 在 二 维 点 集 上 拟 合 一 个 椭圆 。 它 返回 一 个 旋转 的 矩形 (一 个 
cv: :RotatedRect 实例 )， 和 矩形 中 有 一 个 内 切 的 椭圆 。 对 应 的 代码 如 下 所 示 : 


cv: :RotatedRect rrect= cv::fitEllipsel(cv::Mat (points)); 
cv::ellipse (image,rrect,cv::Scalar (0)); 


cv: :ellipse 是 你 在 画 椭圆 时 会 用 到 的 孔 数 之 一 。 














7.5 提取 连续 区 域 


图 像 通常 包含 各 种 物体 , 图像 分 析 的 目的 之 一 就 是 识别 和 提取 这 些 物 体 。 在 物体 检测 和 识别 
程序 中 , 第 一 步 通 常 就 是 生成 二 值 图 像 ， 找 到 感 兴趣 物体 所 处 的 位 置 。 不 管用 什么 方式 获得 二 值 
图 像 (例如 用 第 4 章 的 直方 图 反 向 投影 ,或 者 用 第 12 章 的 运动 分 析 )， 下 一 个 步骤 都 是 从 由 1 和 
0 组 成 的 像素 集合 中 提取 出 物体 。 


来 看 第 5 章 的 水 牛 二 值 图 像 。 



























































rm 





执行 一 次 简单 的 阔 值 化 操作 ,然后 应 用 形态 学 滤波 器 ， 就 能 获得 这 幅 图 像 。 本 节 将 介绍 如 何 
从 这 样 的 图 像 中 提取 物体 。 具体 来 说 , 就 是 提取 连续 区 域 , 即 二 值 图 像 中 由 一 批 连通 的 像素 构成 
的 形状 。 
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7.5.1 如 何 实现 
OpenCV 提供 了 一 个 简单 的 函数 ， 可 以 提取 出 图 像 中 连续 区 域 的 轮廓 ， 这 个 函数 就 是 


Cv::findContours: 








// 用 于 存储 轮廓 的 向 量 
std: :vector<std: :vector<cv: :Point>> contours; 
cv::findContours (image, 


contours, // 存储 轮 廊 的 向 量 
cv: :RETR_EXTERNAL, // 检索 外 部 轮廓 
cv: :CHAIN_APPROX_NONE); // 每 个 轮廓 的 全 部 像素 








显然 ， 函 数 输入 的 就 是 上 述 二 值 图 像 。 输 出 的 是 一 个 存储 轮廓 的 向 量 ， 每 个 轮廓 用 一 个 
cv::Point 类 型 的 向 量 表 示 。 因 此 输出 参数 是 一 个 由 sta: :vector 实例 构成 的 stqd: :vector 
实例 。 此 外 ， 函 数 还 指明 了 两 个 选项 ， 第 一 个 选项 表示 只 检索 外 部 轮廓 ， 即 物体 内 部 的 空 穴 会 被 
忽略 (7.5.3 节 将 讨论 其 他 的 选项 ); 第 二 个 选项 指明 了 轮廓 的 格式 。 使 用 当前 的 选项 ， 向 量 将 列 
出 轮廓 的 全 部 点 。 如 使 用 cv: :CHAIN_APPROX_SIMPLE， 则 只 会 列 出 包 仿 水平、 垂直 或 对 角 线 
轮廓 的 端点 。 用 其 他 选项 可 得 到 逼近 轮廓 的 更 复杂 的 链 ， 对 轮廓 的 表示 将 更 紧凑 。 在 前 面 的 图 像 
中 可 检测 到 9 个 连续 区 域 ， 用 contours .szie() 查 看 轮廓 的 数量 。 


有 一 个 非常 实用 的 函数 可 在 图 像 (这 里 用 白色 图 像 ) 上 画 出 那些 区 域 的 轮廓 : 
// 在 白色 图 像 上 画 黑 色 轮 廊 


cv::Mat result (image.size(),CV_8U,cv::Scalar (255)); 
cv::drawContours (result,contours, 

-1，// 和 画 全 部 轮廓 

0， // 用 黑色 画 

2); // 宽度 为 2 


如 果 这 个 函数 的 第 三 个 参数 是 负数 ， 就 画 出 全 部 轮廓 ， 否 则 就 可 以 指定 要 画 的 轮廓 的 序号 ， 
得 到 的 结果 如 下 所 示 。 
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7.5.2 ”实现 原理 


提取 轮廓 的 算法 很 简单 ， 它 系统 地 扫描 图 像 ， 直 到 找到 连续 区 域 。 从 区 域 的 起 点 开始 ,党 着 
它 的 轮廓 对 边界 像素 做 标记 。 处 理 完 这 个 轮廓 后 ， 就 从 上 个 位 置 继 续 扫描 ， 直 到 发 现 新 的 区 域 。 


你 也 可 以 对 识别 出 的 连续 区 域 进 行 独立 的 分 析 。 例 如 , 如 果 事 先 已 经 知道 感 兴趣 物体 的 大 小 ， 
就 可 以 将 部 分 区 域 删除 。 我们 采用 区 域 边界 的 最 小 值 和 最 大 值 , 具体 做 法 是 迭代 遍历 存放 轮廓 的 
向 量 ， 并 且 删 除 无 效 的 轮廓 : 


// 删除 太 短 或 太 长 的 轮 廊 

int cmin= 50; // 最 小 轮 廊 长 度 

int cmax= 1000; // 最 大 轮 廊 长 度 

std: :Vector<Std: :vector<cv: :Point>>:: 
iterator itc= contours.begin(); 


// 针对 所 有 轮廓 











while (itc!=contours.end()) { 
// 验证 轮廓 大 小 
if (itc->size() < cmin || itc->size() > cmax) 
itc= contours.erase(itc); 
else 
++itc; 


} 


因为 sta: :vector 中 的 删除 操作 的 时 间 复 杂 度 为 OCW)， 所 以 这 个 循环 的 效率 还 可 以 更 高 。 
不 过 这 种 小 型 向 量 的 总 体 开销 也 不 会 不 大 。 


这 次 我 们 在 原始 图 像 上 面 出 剩 下 的 轮廓 ， 结 果 如 下 所 示 。 








畔 | Contours on Animals 口 Xx 





这 幅 图 像 刚 好 有 这 种 简单 的 规则 ,可 用 来 识别 所 有 的 感 兴趣 目标 。 在 更 复杂 的 情况 下 ,就 需 
要 对 区 域 的 属性 做 更 精细 的 分 析 ， 这 正 是 下 一 节 要 做 的 。 
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7.5.3 扩展 阅读 


cv: :findContours 末 数 也 能 检测 二 值 图 像 中 的 所 有 闭合 轮廓 , 包括 区 域内 部 空 穴 构 成 的 
轮廓 。 实 现 方法 是 在 调用 函数 时 指定 另 一 个 标志 : 


























cv::findContours (image, 


contours, // 存放 轮廓 的 向 量 
CV: :RETR_LIST, // 检索 全 部 轮廓 
cv: :CHAIN_APPROX_NONE ) ; // 全 部 像素 


调用 后 得 到 如 下 轮廓 。 

















团 a All Contours 
































注意 , 背景 森林 中 增加 了 额外 的 轮 廊 。 你 也 可 以 把 这 些 轮廓 分 层次 组 织 起 来 。 主 区 域 是 父 轮 
廓 , 它 内 部 的 空 穴 是 子 轮廓 ; 如 果 空 穴内 部 还 有 区 域 , 那 它们 就 是 上 述 子 轮廓 的 子 轮 廓 ， 以 此 类 
推 。 使 用 cv: :RETR_TREE 标志 可 得 到 这 个 层次 结构 ， 代 码 为 : 



































std: :vector<cv: :Vec4i> hierarchy; 
cv::findContours (image，contours， // 存放 轮廓 的 向 量 


hierarchy, // 层次 结构 
cv: :RETR_TREE, // 树 状 结构 的 轮 廊 
Cv: :CHAIN_APPROX_NONE) ; // 每 个 轮廓 的 全 部 像素 











本 例 中 每 个 轮廓 都 有 一 个 对 应 的 层次 元 素 , 存放 次 序 与 轮廓 相同 。 层 次 元 素 由 四 个 整数 构成 ， 
前 两 个 整数 是 下 一 个 和 上 一 个 同 级 轮廓 的 序号 , 后 两 个 整数 是 第 一 个 子 轮廓 和 父 轮廓 的 序号 。 如 果 
序号 为 负 ， 就 表示 轮廓 列表 的 末端 。cv: :RETR_CCOMP 标志 的 作用 与 之 类 似 , 但 只 允许 两 个 层次 。 


























7.6 ”计算 区 域 的 形状 描述 子 


连续 区 域 通常 代表 着 场景 中 的 某 个 物体 。 为 了 识别 该 物体 ， 或 将 它 与 其 他 图 像 元 素 做 比较 ， 
需要 对 此 区 域 进行 测量 ,以 提取 出 部 分 特征 。 本 节 将 介绍 几 种 OpenCV 的 形状 描述 子 , 用 于 描述 
连续 区 域 的 形状 。 
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7.6.1 如 何 实现 


OpenCV 中 用 于 形状 描述 的 函数 有 很 多 ， 我 们 把 其 中 的 几 个 应 用 到 上 节 提 取 的 区 域 。 值 得 一 
提 的 是 ,我 们 还 会 使 用 包含 四 个 轮廓 的 向 量 ， 这 些 轮廓 分 别 代表 前 面 已 经 识别 的 四 头 水 牛 。 在 下 
面 的 代码 段 中 ， 我 们 将 计算 轮廓 的 形状 描述 子 (从 contours [0] 到 contours [31 )， 并 在 轮廓 
图 像 ( 宽度 为 1) 上 夯 出 结果 ( 宽度 为 2 )。 图 像 见 本 节 最 后 。 


第 一 个 是 边界 框 ， 用 于 右 下 角 的 区 域 : 


// 测试 边界 框 
Cv::Rect r0= cv::boundingRect (contours{[0]); 
// 务 欠 形 

cv::rectangle(result,r0, 0, 2) 


最 小 覆盖 圆 的 情况 也 类 似 ， 将 它 用 于 右上 角 的 区 域 : 


// 测试 覆盖 加 

float radius; 

CVv::Point2f center; 

cv::minEnclosingCircle(contours[1],center,radius); 

// 画 圆 形 

cv::circle(result,center, static cast<int>(radius), 
GeaLlar(0 


计算 区 域 轮廓 的 多 边 形 逼 近 的 代码 如 下 〈 位 于 左 侧 区 域 ): 


// 测试 多 边 形 逼 近 

std: :Vector<CcV: :Point> poly; 

CV: :approxPolyDP (contours [2],pPpoly,5,true) : 
// 画 多 边 形 

cv::polylines (result, poly, true, 0, 2); 


注意 , 多边形 绘制 函数 cv: :polylines 与 其 他 画图 函数 很 相似 。 第 三 个 布尔 型 参数 表示 该 
轮廓 是 否 闭合 (如 果 闭 合 ， 最 后 一 个 点 将 与 第 一 个 点 相连 )。 


凸 包 是 另 一 种 形式 的 多 边 形 逼近 (〈 位 于 左 侧 第 二 个 区 域 ): 


// 测试 凸 包 

std: :vector<cv::Point> hull; 
cv::convexHull (contours[3],hull); 

// 画 多 边 形 

cv::polylines (result, hull, true, 0, 2); 


最 后 ， 计 算 轮 廓 矩 是 另 一 种 功能 强大 的 描述 子 〈 在 所 有 区 域内 部 画 出 重心 ): 


// 测试 轮 廊 矩 

// 选 代 遍 历 所 有 轮 廊 

itc= contours.begin(); 

while (itc!=contours.end()) { 


















































// 计算 所 有 轮廓 算 


cv::Moments mom= cv::moments(cv::Mat (*itc++)); 
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// 入 重心 
cv::circle(result, 
// 将 重心 位 置 转换 成 整数 
cv::Point (mom.m10/mom.m00,mom.m01/mom.m00), 
2，cv::Scalar(0),2); // 画 黑 点 
} 


结果 如 下 所 示 。 














团 导 Some Shape descriptors XxX 
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7.6.2 ”实现 原理 


在 表示 和 定位 图 像 中 区 域 的 方法 中 , 边界 框 可 能 是 最 简洁 的 。 它 的 定义 是 : 能 完整 包含 该 形 
状 的 最 小 垂直 和 矩形。 比较 边界 框 的 高 度 和 宽度 ,可 以 获得 物体 在 垂直 或 水 平方 向 的 特征 〈 例 如 可 
以 通过 计算 高 度 与 宽度 的 比例 ， 分 辨 出 一 幅 图 像 是 汽车 还 是 行人 )。 最 小 覆盖 圆通 常 在 只 需要 区 
域 尺寸 和 位 置 的 近似 值 时 使 用 。 


如 果 要 更 紧凑 地 表示 区 域 的 形状 ,可 采用 多 边 形 允 近 。 在 创建 时 要 制定 精确 度 参数 ， 表示 形 
状 与 对 应 的 简化 多 边 形 之 间 能 接受 的 最 大 距离 。 它 是 cv: :approxPolyDP 函数 的 第 四 个 参数 。 





































































































返回 的 结果 是 cv: : Point 类 型 的 向 量 ， 表 示 多 边 形 的 顶点 个 数 。 在 画 这 个 多 边 形 时 ， 要 迭代 遍 
历 整个 向 量 ， 并 在 顶点 之 间 画 直线 ， 把 它们 逐个 连接 起 来 。 








形状 的 凸 包 (或 凸 包 络 ) 是 包含 该 形状 的 最 小 凸 多 边 形 。 可 以 把 它 看 作 一 条 绕 在 区 域 周围 的 
橡皮 筋 。 可 以 看 出 ， 在 形状 轮廓 中 四 进去 的 位 置 ， 凸 包 轮 万 会 与 原始 轮廓 发 生 偏离 。 

通常 可 用 凸 包 缺 陷 来 表示 这 些 位 置 。OpenCV 中 有 一 个 专门 用 于 识别 凸 包 缺 陷 的 函数 
cv: :convexityDefects， 它 的 调用 方法 如 下 所 示 














std: :vector<cv: :Vec4i> defects; 
Cv: :convexityDefects (contour, hull, defects); 


参数 contour 和 hull 分 别 表示 原始 轮 廊 和 凸 包 轮 廊 (两 者 都 用 std: :vector<cv: :Point> 
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的 实例 表示 )。 隐 数 输出 的 是 一 个 向 量 ， 它 的 每 个 元 素 由 四 个 整数 组 成 : 前 两 个 整数 是 顶点 在 轮 
廓 中 的 索引 ,用 来 界定 该 缺陷 ; 第 三 个 整数 表示 凹陷 内 部 最 远 的 点 ; 最 后 的 整数 表示 最 远 点 与 凸 
包 之 间 的 距离 。 


轮廓 矩 是 形状 结构 分 析 中 常用 的 数学 模型 。OpenCyV 定义 了 一 个 数据 结构 ， 封 装 了 形状 中 计 
算得 到 的 所 有 轮廓 和 矩 。 它 是 函数 cv: :moments 的 返回 值 。 这 些 轮廓 矩 共同 表示 物体 形状 的 紧凑 
程度 ， 常 用 于 特征 识别 。 我 们 只 是 用 该 结构 获得 每 个 区 域 的 重心 , 这 里 用 前 面 三 个 空间 轮廓 矩 计 
算得 到 。 















































7.6.3 扩展 阅读 


可 以 用 OpenCV 函数 计算 得 到 其 他 结构 化 属性 : 函数 cv: :minareaRect 计算 最 小 覆盖 自由 
矩形 (5.6 节 用 到 了 这 个 函数 )、 函 数 cv: :contourArea 估算 轮廓 的 面积 (内 部 的 像素 数量 )、 
函数 Cv: :pointPolygonTest 判断 一 个 点 在 轮廓 的 内 部 还 是 外 部 、 函数 cv: :matchShapes 度量 
两 个 轮廓 之 间 的 相似 度 。 所 有 这 些 度量 属性 的 方法 都 可 以 有 效 地 结合 起 来 ,用 于 更 高 级 的 结构 分 析 。 


四 边 形 检测 


第 5 章 讲 到 的 MSER 特征 是 一 种 高 效 的 工具 ， 可 以 从 图 像 中 提取 形状 。 利 用 前 面 用 MSER 
得 到 的 结果 , 我 们 来 构建 一 个 在 图 像 中 监测 四 边 形 区 域 的 算法 。 在 当前 图 像 中 , 该 算法 可 用 于 检 
测 建筑 物 的 窗户 。 要 获取 MSER 的 二 值 图 像 非常 简单 : 


// 创建 二 值 图 像 

components= components==255; 

// 打开 图 像 (包含 背景 ) 

CVv: :morphologyEx (components,components, 
Cv: :MORPH_OPEN, cv: :Mat ()， 
Gi 


另外 还 可 以 用 形态 学 滤波 器 来 清理 图 像 ， 得 到 的 图 像 如 下 所 示 。 
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下 一 步 是 获取 轮廓 : 


// 翻转 图 像 (背景 必须 是 黑色 的 ) 
Cv::Mat componentsInv= 255-components; 
// 得 到 连续 区 域 的 轮廓 
cv::findContours (componentsIny, 
contours, // 轮廓 的 向 量 


CV: :RETR_EXTERNAL，// 检索 外 部 轮廓 
CV: :CHAIN_APPROX_NONE); 


最 后 得 到 全 部 轮廓 ， 并 用 多 边 形 粗略 地 通 近 它们 : 
// 白色 图 像 


cv::Mat quadri (components.size(),CV_8U,255); 








// 针对 全 部 轮廓 
std: :vector<std: :vector<cv::Point>>::iterator it= contours.begin(); 
while (it!= contours.end()) { 

poly.clear (); 

// 用 多 边 形 允 近 轮 廓 

Cv: :approxPolyDP (*it,poly,10,true); 

// 是 否 为 四 边 形 ? 

if (poly.size()==4) { 
// 画 出 来 
Cv::polylines (gquadri, poly, true, 0, 2); 
} 


二 + 七 7 





} 

















四 边 形 就 是 有 四 条 边 的 多 边 形 ， 检 测 结果 如 下 所 示 。 





大 了 MSER quadrilateral 
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XxX 
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要 检测 矩形 ， 只 需 测 量 相 邻 边 的 夹 角 ， 并 且 排 除 夹 角 与 90 度 相 差 很 大 的 四 边 形 。 

















仿 测 兴趣 后 








本 章 包括 以 下 内 容 : 


口 检测 图 像 中 的 角 点 ; 
口 快速 检测 特征 
口 尺度 不 变 特征 的 检测 ; 

口 多 尺度 FAST 特征 的 检测 。 











8.1 简介 


在 计算 机 视觉 领域 ,兴趣 点 ( 也 称 关键 点 或 特征 点 ) 的 概念 已 经 得 到 了 




















| 泛 的 应 用 , 包括 目 


标识 别 、 图 像 配 准 、 视 觉 跟踪 、 三 维 重 建 等 。 这 个 概念 的 原理 是 ， 从 图 像 中 选取 某 些 特征 点 并 对 























图 像 进行 局 部 分 析 ( 即 提取 局 部 特征 )， 而 非 观察 整 幅 图 像 ( 即 提取 全 局 特征 )。 只 要 岁 像 中 有 足 








够 多 可 检测 的 兴趣 点 ,并且 这 些 兴 趣 点 各 不 相同 且 特 征 稳 定 、 能 被 精确 地 定 
有 效 。 


因为 要 用 于 图 像 内 容 的 分 析 , 所 以 不 管 图 像 拍摄 时 采用 了 什么 视角 、 尺 














位 ， 上 述 方法 就 十 分 


度 和 方位 , 理想 情况 


下 同一 个 场景 或 目标 位 置 都 要 检测 到 特征 点 。 视觉 不 变性 是 图 像 分 析 中 一 个 非常 重要 的 属性 , 目 


























前 有 大 量 关 于 它 的 研究 。 我 们 将 会 看 到 , 各 种 检测 方法 具有 不 同 的 不 变性 。 本 章 将 重点 关注 关键 点 
提取 这 一 过 程 本 身 。 后 面 的 章节 将 介绍 兴趣 点 在 各 个 方面 的 应 用 ,例如 图 像 匹 配 和 图 像 几 何 估 计 。 











8.2 ”检测 图 像 中 的 角 点 


























在 图 像 中 搜索 有 价值 的 特征 点 时 , 使 用 角 点 是 一 种 不 错 的 方法 。 角 点 是 很 容易 在 图 像 中 定位 
的 局 部 特征 ， 并 且 大 量 存在 于 人 造物 体 中 ( 例如 墙壁 、 门 、 窗 户 、 桌 子 等 )。 角 点 的 价值 在 于 它 






























































是 两 条 边缘 线 的 接合 点 ， 是 一 种 二 维特 征 ， 可 以 被 精确 地 检测 ( 即使 是 亚 像 素 级 精度 )。 与 此 相 


反 的 是 位 于 均匀 区 域 或 物体 轮廓 上 的 点 ， 这 些 点 在 同一 物体 的 不 同 图 像 上 很 难 重复 精确 定位 。 





Harris 特征 检测 是 检测 角 点 的 经 典 方法 ， 本 节 将 详细 探讨 这 个 方法 。 
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8.2.1 如 何 实现 

OpenCV 中 检测 Harris 角 点 的 基本 函数 是 cv: :cornerHarzis, 它 的 使 用 方法 非常 简单 。 调 
用 该 函数 时 输入 一 幅 图 像 , 返回 的 结果 是 一 个 浮 点 数 型 图 像 ， 其 中 每 个 像素 表示 角 点 强度 。 然 后 
对 输出 图 像 阔 值 化 ， 以 获得 检测 角 点 的 集合 。 代 码 如 下 所 示 : 


// 检测 Harris 角 点 
cv::Mat cornerStrength; 








cV: :CornerHarris (image, // 输入 图 像 
cornerStrength，// 角 点 强度 的 图 像 
3 // 邻 域 尺寸 
By // 口径 尺寸 
0 01) // Harris 参数 


// 对 角 上 点 强度 阅 值 化 

cv::Mat harrisCorners; 

double threshold= 0.0001; 

cv::threshold(cornerStrength,harrisCorners, 
threshold,255,cv: :THRESH_BINARY); 


这 是 原始 图 像 。 














转 Original 一 xX 
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结果 是 一 个 二 值 分 布 图 像 ， 如 下 图 所 示 。 为 了 能 更 直观 地 观察 图 像 ， 此 处 进行 了 反 转 处 理 
( 即 用 cv: :THRESH_BINARY_INV 代替 cv: :THRESH_BINARY， 用 黑色 表示 被 检测 的 角 点 )。 
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在 前 面 的 函数 中 ， 我 们 发 现 兴趣 点 检测 法 需要 使 用 几 个 参数 (下 一 
会 导致 该 方法 很 难 调节 。 此 外 ， 
检测 的 具有 明确 定位 的 角 点 。 因此, 我 们 来 定义 一 个 检测 Harris 角 点 的 类 





类 封装 了 带 有 缺 省 值 的 Harris 参数 以 及 对 应 的 获取 方法 和 设置 方法 (这 


class HarrisDetector { 
private: 


// 32 位 浮上 点数 型 的 角 点 强度 图 像 
cV: :Mat cornerStrength; 
// 32 位 浮 点 数 型 的 阅 值 化 角 点 
cv::Mat cornerTh; 

// 局 部 最 大 值 图 像 (内 部 ) 
cv::Mat localMax; 

// 平滑 导数 的 邻 域 尺寸 

int neighborhood; 

// 梯度 计算 的 口径 

int aperture; 

// Harris 参数 

double k; 

// 阅 值 计算 的 最 大 强度 
double maxStrength 

// 计算 得 到 的 阅 值 (内部) 
double threshold; 

// 非 最 大 值 抑 制 的 邻 域 尺寸 
int nonMaxSize; 

// 非 最 大 值 抑制 的 内 核 

cV: :Mat kernel; 








图 像 





public: 


: neighborhood(3), aperture(3), 
k(0.01), maxStrength(0.0), 
threshold(0.01), nonMaxSize(3) { 


HarrisDetector () 


// 创建 用 于 非 最 大 值 抑 制 的 内 核 
setLocalMaxWindowSize (nonMaxSize); 


} 
检测 Harris 角 点 需 

















// 计算 Harris 角 点 
void detect (const cvV: 


首先 是 计算 每 个 像素 的 Harris 值 : 


:Mat& :image) { 


// 计算 Harris 

cvV: :CornerHarris (Image,CcornerStrength ， 
neighbourhood,// 邻 域 尺寸 
aperture, // 口径 尺寸 
K) ; // Harris 参数 


// 计算 内 部 阅 值 


一 节 会 详细 解释 )， 这 可 能 

















得 到 的 角 点 分 布 图 中 包含 很 多 育 集 的 角 点 像素 ， 而 不 是 我 们 想 要 


,以 改进 角 点 检测 方法 。 
这 里 没有 列 出 ): 
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cv: :minMaxLoc (cornerStrength,0,é&maxSstrength); 


// 检测 局 部 最 大 值 

cv::Mat dilated; // 临时 图 像 
cv::dilate(cornerStrength,dilated,cv::Mat()); 

cvV: :compare (cornerStrength,dilated, localMax, cv::CMP_ FEO); 


} 
然后 , 用 指定 的 阔 值 获得 特征 点 。 因 为 Harris 值 的 可 选 范围 取决 于 选择 的 参数 ， 所 以 阔 值 被 
作为 质量 等 级 ， 用 最 大 Harris 值 的 一 个 比例 值 表示 : 


// 用 Harris 值得 到 角 点 分 布 图 
cvV: :Mat getCornerMap(double qualityLevel) { 











Cv::Mat cornerMap; 


// 对 角 上 点 强度 阅 值 化 

threshold= qualityLevel*maxStrength; 

cv::threshold(cornerStrength,cornerTh, threshold, 255, 
Cv: :THRESH_BINARY); 


// 转换 成 8 位 图 像 


cornerTh.convertTo(cornerMap,CV_8U); 


// 非 最 大 值 抑制 


cv::bitwise _ and(cornerMap,1localMax,cornerMap); 


return cornerMap; 
} 


这 个 方法 将 返回 一 个 被 检测 特征 的 二 值 角 点 分 布 图 。 因为 Harris 特征 的 检测 过 程 分 为 两 个 方 
法 ， 所 以 我 们 可 以 用 不 同 的 阔 值 来 测试 检测 结果 ( 直到 获得 适当 数量 的 特征 点 )， 而 不 必 重 复 进 
行 耗 时 的 计算 过 程 ,当然 ,你 也 可 以 从 以 staq: :vector 形 式 表示 的 cv: :Point 实例 中 得 到 Harris 
特征 : 


// 用 Harris 值得 到 特征 点 
void getCorners(std::vector<cv::Point> &points, double qualityLevel) { 





// 获得 角 点 分 布 图 

cvV: :Mat cornerMap= getCornerMap (qualityLevel); 
// 获得 角 点 

getCorners (points, cornerMap); 


} 


// 用 角 点 分 布 图 得 到 特征 点 
void getCorners (std: :Vector<cV: :Point> &points, 
Const cv::Mat& cornerMap) { 
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// 和 迭代 遍历 像素 ， 得 到 所 有 特征 
for( int y = 0; y < cornerMap.rows; y++ ) { 


const uchar* rowPtr = cornerMap.ptr<uchar>(y); 


for( int x = 0; x < cornerMap.cols; x++ ) { 


// 如 果 它 是 一 个 特征 点 
if (rowPtr[x]) { 


points.push back(cv::Point (x,y)); 
} 





这 个 类 通过 增加 非 最 大 值 抑 制 步骤 ,也 改进 了 Harris 角 点 的 检测 过 程 ， 下 一 节 会 详细 解释 这 


上 ， 


个 步 又。 现在 可 以 用 cv: :circle 函数 画 出 检测 到 的 特征 点 ， 方 法 如 下 所 示 : 
// 在 特征 点 的 位 置 画 圆 形 


void drawOnIimage (cv::Mat &image, 


出 











const Std: :Vector<cV: :Point> &points, 
VOGaLar OolGE= OV OGalAar(2S5p255.,255.).3 
int radius=3, int thickness=1) { 
std: :vector<cv::Point>::const_iterator it= points.begin(); 
// 针对 所 有 角 点 


while (it!=points.end()) { 


// 在 每 个 角 点 位 置 画 一 个 贺 


cv::circle(image,*it,radius,color,thickness); 
++it; 





} 
使 用 这 个 类 检测 Harris 特征 点 的 方法 如 下 所 示 : 


// 创建 Harris 检测 器 实例 
HarrisDetector harris; 

// 计算 Harris 值 

harris.detect (image); 

// 检测 Harris 角 点 

std: :vector<cv: :Point> pts; 
harris.getCorners (pts,0.02); 
// 画 出 Harris 角 点 
harris.drawOnImage (image,pts); 


结果 如 下 图 所 示 。 
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夯 了 Corners 一 贺 X 








8.2.2 ”实现 原理 


为 了 定义 图 像 中 角 点 的 概念 ，Harris 特征 检测 方法 在 假定 的 兴趣 点 周围 放置 了 一 个 小 窗口 ， 
并 观察 窗口 内 某 个 方向 上 强度 值 的 平均 变化 。 如果 位 移 向 量 为 (u,v), 那么 可 以 用 均 方差 之 和 表示 
强度 的 变化 : 





R=3(T(x+u, y+v) -I(x,y)) 
累加 的 范围 是 该 像素 周围 一 个 预先 定义 的 邻 域 ( 邻 域 的 尺寸 取决 于 cv: :cornerHarris 限 
数 的 第 三 个 参数 )。 在 所 有 方向 上 计算 平均 强度 变化 值 ， 如 果 不 止 一 个 方向 的 变化 值 很 高 ， 就 认 
为 这 个 点 是 角 点 。 根据 这 个 定义 ，Harris 测试 的 步骤 应 为 : 首先 获得 平均 强度 值 变化 最 大 的 方向 ， 
然后 检查 垂直 方向 上 的 平均 强度 变化 值 ， 看 它 是 否 也 很 大 ; 如 果 是 ， 就 说 明 这 是 一 个 角 点 。 


从 数学 的 角度 看 ， 可 以 用 泰勒 展开 式 近 似 地 计算 上 述 公 式 ， 验 证 这 个 判断 : 


2 六 2 
RY eh re =》 国 二 A, 120 0, 
ox 9 Ox Oy Ox Oy 









































写成 矩阵 形式 ， 就 是 : 


全 | 5 





6x 6x 6y u 
Ra[u 7Y] 5 
ol 07 ol 下 
i 2 
Ox Oy Oy 





这 是 一 个 协 方差 矩阵 , 表示 在 所 有 方向 上 强度 值 变化 的 速率 。 这 个 定义 包括 了 图 像 的 一 阶 导 
数 , 通常 用 Sobel 算 子 计算 。 在 OpenCV 的 实现 方式 中 , 这 是 函数 的 第 四 个 参数 ,表示 计算 Sobel 
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滤波 器 时 用 的 口径 。 这 个 协 方差 矩阵 的 两 个 特征 值 分 别 表 示 最 大 平均 强度 值 变化 和 垂直 方向 的 平 
均 强 度 值 变化 。 如 果 这 两 个 特征 值 都 很 小 ， 就 说 明 是 在 相对 同 质 的 区 域 ; 如 果 一 个 特征 值 很 大 ， 
另 一 个 很 小 , 那 肯 定 是 在 边缘 上 ; 如 果 两 者 都 很 大 ,那么 就 是 在 角 点 上 。 因 此 ， 判 断 一 个 点 为 角 
点 的 条 件 是 它 的 协 方差 矩阵 的 最 小 特征 值 要 大 于 指定 的 阐 值 。 

Harris 角 点 算法 的 原始 定义 用 到 了 特征 分 解 理论 的 一 些 属性 ， 从 而 避免 显 式 地 计算 特征 值 带 
来 的 开销 。 这 些 属性 是 : 
口 矩阵 的 特征 值 之 积 等 于 它 的 行列 式 值 ; 

口 矩阵 的 特征 值 之 和 等 于 它 的 对 角 元 素 之 和 《也 就 是 矩阵 的 迹 ) 。 
通过 计算 下 面 的 评分 ， 可 以 验证 矩阵 的 特征 值 高 不 高 : 
Det(C)—kTrace’ (C) 

只 要 两 个 特征 值 都 高 ， 就 很 容易 证 明 这 个 评分 肯定 也 高 。 这 个 评分 由 函数 cv: :corner 
Harris 在 每 个 像素 的 位 置 计算 得 到 。 数 值 是 函数 的 第 五 个 参数 ， 确 定 这 个 参数 的 最 佳 值 是 比 
较 困 难 的 。 但 是 根据 经 验 ，0.05~0.5 通常 是 比较 好 的 选择 。 

为 了 提升 检测 效果 , 前 面 介 绍 的 类 增加 了 一 个 额外 的 非 最 大 值 抑制 步 又 , 作用 是 排除 掉 紧 邻 
的 Harris 角 点 。 因 此 ,Harris 角 点 不 仅 要 有 高 于 指定 阔 值 的 评分 , 还 必须 是 局 部 范围 内 的 最 大 值 。 
为 了 检查 这 个 条 件 ，detect 方法 中 加 入 了 一 个 小 技巧 ， 即 对 Harris 评分 的 图 像 做 膨胀 运算 : 

cv::dilate(cornerStrength, dilated,cv::Mat()); 

膨胀 运算 会 在 邻 域 中 把 每 个 像素 值 蔡 换 成 最 大 值 ,， 因此 只 有 局 部 最 大 值 的 像素 是 不 变 的 。 用 
下 面 的 相等 测试 可 以 验证 这 一 点 : 

cvV: :compare (cornerStrength, dilated, localMax,cv::CMP_ EQ); 


因此 矩阵 localMax 只 有 在 局 部 最 大 值 的 位 置 才 为 真 ( 即 非 零 ), 然后 将 它 用 于 get CornerMap 
方法 中 ,排除 掉 所 有 非 最 大 值 的 特征 (用 cv: :pitwise 函数 )。 










































































































































































8.2.3 扩展 阅读 


你 还 可 以 对 原始 Harris 角 点 检测 算法 做 进一步 的 优化 。 本 节 将 介绍 OpenCV 的 另 一 种 角 点 检 
测 方法 , 它 扩展 了 Harris 检测 法 , 使 角 点 在 图 像 中 的 分 布 更 加 均匀 。 这 个 算法 实现 了 一 个 公共 接 
口 ,该 接口 定义 了 所 有 特征 检测 算法 的 方法 。 使 用 这 个 公共 接口 ， 可 以 很 方便 地 在 同一 个 应 用 程 
序 中 测试 各 种 兴趣 点 检测 算法 。 

适合 跟踪 的 特征 

随 着 浮 点 处 理 絮 的 出 现 , 为 避免 特征 值 分 解 而 进行 数学 上 的 简化 的 意义 已 经 不 大 。 因 此 , 可 
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以 通过 显 式 地 计算 特征 值 来 检测 Harris 角 点 。 这 种 修改 原则 上 不 会 明显 地 影响 检测 结果 , 但 是 可 
以 避免 使 用 随意 的 k 参数 。 有 两 个 函数 可 以 用 来 显 式 地 计算 Harris 协 方差 矩阵 的 特征 值 ( 以 及 特 


征 向 量 )， 即 cv: :cornerEigenValsAndVecs 和 cv: :cornerMinEigenVal。 


第 二 项 改进 是 针对 特征 点 聚集 的 问题 。 事 实 上 ,尽管 引入 了 局 部 最 大 值 这 个 条 件 ， 兴 趣 点 仍 
不 会 在 图 像 中 均匀 分 布 ， 而 是 聚集 在 高 度 纹理 化 的 位 置 。 解 决 该 问题 的 一 种 方案 ， 就 是 限制 两 个 
兴趣 点 之 间 的 最 短 距离 ， 可 以 通过 下 面 的 算法 实现 。 从 Harris 值 最 强 的 点 开始 ( 即 具有 最 大 的 最 低 
特征 值 ), 只 允许 一 定 距离 之 外 的 点 成 为 兴趣 点 ,在 OpenCV 中 用 good-features-to-track( GFTT ) 
实现 这 个 算法 。 这 个 算法 得 名 于 它 检 测 的 特征 非常 适合 作为 视觉 跟踪 程序 的 起 始 集合 , 它 的 使 用 
方法 如 下 所 示 : 


// 计算 适合 跟踪 的 特征 

std: :vector<cv: :KeyPoint> keypoints; 

// GFTT 检测 器 

CV: :Ptr<cvVv: :GFTTDetector> ptrGFTT = 

Cv: :GFTTDetector: :createl 

500, // 关键 点 的 最 大 数量 
0.01， // 质量 等 级 
10); ”// 角 点 之 间 允 许 的 最 短 距离 


























// 检测 GFTT 

ptrGFTT->detect (image, keypoints); 

首先 使 用 特定 的 静态 函数 ( 这 里 用 cv: :GFTTDetector: :create ) 创建 特征 检测 器 ， 并 初 
始 化 参数 .除了 质量 等 级 阔 值 和 兴趣 点 间 的 最 小 距离 ,该 函数 还 需要 提供 允许 返回 的 最 大 点 数 ( 这 
些 点 是 按照 强度 排序 的 )。 函 数 返回 一 个 指向 检测 器 实例 的 智能 指针 。 构 建 完 这 个 实例 后 ， 就 可 
以 调用 检测 方法 了 。 请 注意 ， 公 共 接 口 还 包含 了 一 个 cv: :Keypoint 类 ， 这 个 类 封装 了 每 个 检 
测 到 的 特征 点 的 属性 。 对 于 Harris 角 点 来 说 ， 只 与 关键 点 位 置 和 它 的 反馈 强度 有 关 。8.4 节 将 介 
绍 与 关键 点 有 关 的 其 他 性 质 。 


上 述 代码 的 运行 结果 如 下 图 所 示 。 





























图 GFTT 回 xX 
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由 于 需要 让 兴趣 点 按照 Harris 评分 排序 , 因此 该 检测 方法 的 复杂 度 有 所 提高 , 但 是 它 也 明显 
改进 了 兴趣 点 在 整 幅 图 像 中 的 分 布 情况 。 注 意 ,， 这 个 函数 还 有 一 个 可 选 的 标志 ,该 标志 要 求 在 检 
测 Harris 角 点 时 ， 采 用 经 典 的 角 点 评分 定义 〈 使 用 协 方差 矩阵 的 行列 式 值 和 迹 )。 


OpenCV 特征 检测 的 公共 接口 定义 了 一 个 虚拟 类 cv: :Feature2D， 它 可 以 确保 其 他 类 包含 
以 下 格式 的 aelete 方法 : 


void detect( cv::InputArray image, 
std: :vector<KeyPoint>& keypoints, 
cv::InputArray mask ); 

















void detect( cv::InputArrayOfArrays images, 
std: :vector<std: :vector<KeyPoint> >& keypoints, 
cv::InputArrayOfArrays masks ); 


使 用 第 二 个 方法 ,可 以 从 包含 图 像 的 容器 中 检测 兴趣 点 。 这 个 类 还 包含 其 他 方法 , 例如 计算 
特征 描述 符 的 方法 (详情 请 参见 第 9 章 )、 从 文件 中 读 取 和 写 人 检测 到 的 兴趣 点 的 方法 ， 等 等 。 








8.2.4 人 参阅 


口 C. Harris 和 M.J. Stephens 于 1988 年 发 表 在 4lvey Vision Conference 第 147 页 至 第 152 页 的 
“A combined corner and edge detector” 是 描述 Harris 算 子 的 经 典 论 文 。 

口 J.Shi 和 C.Tomasi 于 1994 年 发 表 在 Int. Conference on Computer Vision and Pattern Recognition 
第 593 页 至 第 600 页 的 论文 “Good features to track” 介 绍 了 这 些 特 征 。 

口 K. Mikolajczyk 和 C. Schmid 于 2004 年 发 表 在 International Journal of Computer Vision 第 
60 卷 第 1 期 第 63 页 至 第 86 页 的 论文 “Scale and Affine invariant interest point detectors” 提 
出 了 多 尺度 和 仿 射 不 变 的 Harris 算 子 。 











8.3 ”快速 检测 特征 


Harris 算 子 对 角 点 (或 者 更 通用 的 兴趣 点 ) 做 出 了 规范 的 数学 定义 ， 该 定义 基于 强度 值 在 两 
个 互相 垂直 的 方向 上 的 变化 率 。 虽 然 这 是 一 种 看 似 很 完美 的 定义 , 但 它 需 要 计算 图 像 的 导数 ， 而 
计算 导数 是 非常 耗 时 的 。 尤 其 要 注意 的 是 ， 检 测 兴 趣 点 通常 只 是 更 复杂 的 算法 中 的 第 一 步 。 

本 节 将 介绍 另 一 种 特征 点 算 子 ， 叫 作 FAST ( Features from Accelerated Segment Test， 加 速 分 
割 测试 获得 特征 )。 这 种 算 子 专门 用 来 快速 检测 兴趣 点 一 一 只 需 对 比 几 个 像素 ， 就 可 以 判断 它 是 
否 为 关键 点 。 












































8.3.1 ”如 何 实现 
正如 8.2 节 介 绍 的 ， 因 为 OpenCV 有 检测 特征 点 的 公共 接口 ， 所 以 调用 任何 特征 点 检测 需 都 
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非常 容易 。 本 节 介 绍 的 是 FAST 检测 器 。 顾名思义 , 它 的 设计 目的 就 是 从 图 像 中 快速 检测 兴趣 点 : 


// 关键 点 的 向 量 


std: :vector<cv: :KeyPoint> keypoints; 

// FAST 特征 检测 器 , 阅 值 为 40 

CVv::Ptr<cv: :FastFeatureDetector> ptrFAST = 
cv: :FastFeatureDetector: :create(40); 


// 检测 关键 点 


ptrFAST->detect (image, keypoints); 


OpenCV 也 提供 了 在 图 像 上 画 关 键 点 的 通用 函数 : 





cv::dqrawKevypoints (image, // 原始 图 像 
keypoints, // 关键 点 的 向 量 
image, // 输出 图 像 
cv::Scalar (255,255,255), // 关键 点 的 颜色 
cv::DrawMatchesFlags: :DRAW_OVER_OUTIMG); // 画图 标志 





选择 这 个 画图 标志 后 ， 输 入 图 像 上 会 画 出 关键 点 ， 输 出 结果 如 下 所 示 。 





转 了 FAST 一 回 xX 











有 一 种 比较 有 趣 的 做 法 ， 就 是 用 一 个 负数 作为 关键 点 颜色 。 这 样 一 来 ,， 画 每 个 圆 时 会 随机 选 


用 不 同 的 颜色 。 


8.3.2 ”实现 原理 


跟 Harris 检测 器 的 情况 一 样 ，FAST 特征 算法 源 于 “什么 构成 了 角 点 ”的 定义 。FAST 对 角 点 


的 定义 基于 候选 特 生 








FE 点 周围 的 图 像 强度 值 。 以 某 个 点 为 中 心 做 一 个 圆 , 根据 圆 上 的 像素 值 判断 该 





点 是 否 为 关键 点 。 如 果 存 在 这 样 一 段 圆 疡 ， 它 的 连续 长 度 超过 周 长 的 3/4， 并 且 它 上 面 所 有 像素 
的 强度 值 都 与 圆心 的 强度 值 明 显 不 同 〈 全 部 更 暗 或 更 亮 )， 那么 就 认定 这 是 一 个 关键 点 。 

















这 种 测试 方法 非常 简单 ,计算 速度 也 很 快 。 而 且 在 它 的 原始 公式 中 , 算法 还 用 了 一 个 技巧 来 
进一步 提高 处 理 速度 。 如 果 我 们 测试 圆周 上 相隔 90 度 的 四 个 点 〈 例 如 取 上 、 下 、 左 、 右 四 个 位 
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置 )， 就 很 容易 证 明 : 为 了 满足 前 面 的 条 件 ， 其 中 必须 有 三 个 点 都 比 圆心 更 亮 或 都 比 圆心 更 暗 。 


如 果 不 满 足 该 条 件 ， 就 可 以 立即 排除 这 个 点 ,不 需要 检查 圆周 上 的 其 他 点 。 这 种 方法 非常 高 
效 ， 因 为 在 实际 应 用 中 ， 图 像 中 大 部 分 像素 都 可 以 用 这 种 “四 点 比较 法 ”排除 。 


从 概念 上 讲 ， 用 于 检查 像素 的 圆 的 半径 应 该 作为 方法 的 一 个 参数 。 但 是 根据 经 验 ， 半 径 为 3 
时 可 以 得 到 好 的 结果 和 较 高 的 计算 效率 。 因 此 需要 在 圆周 上 检查 16 个 像素 ， 如 下 图 所 示 。 












































这 里 用 来 预测 试 的 像素 是 1、5、9 和 13 ， 至 少 需要 9 个 比 圆心 更 暗 (或 更 亮 ) 的 连续 像素 。 
这 种 设置 通常 称 为 FAST-9 角 点 检测 器 ， 也 是 OpenCV 默认 采用 的 方法 。 你 可 以 在 构建 检测 器 实 
例 时 指定 FAST 检测 需 的 类 型 , 也 可 以 用 setType 方法 指定 。 可 选 的 类 型 有 cv: :FastFeature 
Detector: "TYP 5b, 8 Cv: FasthreatureDetector: :TYPE. /12 以 及 cv: :FastFeature 
Deteetors:TYPE. 9 166 


















































一 个 点 与 圆心 强度 值 的 差距 必须 达到 一 个 指定 的 值 , 才能 被 认为 是 明显 更 暗 或 更 亮 ; 这 个 值 
就 是 创建 检测 器 实例 时 指定 的 阔 值 参数 。 这 个 阔 值 越 大 ， 检 测 到 的 角 点 数量 就 越 少 。 


至 于 Harris 特征 , 通常 最 好 在 发 现 的 角 点 上 执行 非 最 大 值 抑 制 。 因 此 , 需要 定义 一 个 角 点 强 
度 的 衡量 方法 。 有 多 种 衡量 方法 可 供 选择 ,下 面 介绍 的 是 实际 选用 的 方法 一 一 计算 中 心 点 像素 与 
认定 的 连续 圆 弧 上 的 像素 的 差 值 ， 然 后 将 这 些 差 值 的 绝对 值 累 加 ， 就 能 得 到 角 点 强度 。 可 以 从 
CVv: :KeyPoint 实例 的 response 属性 获取 角 点 强度 。 


用 这 个 算法 检测 兴趣 点 的 速度 非常 快 , 因此 十 分 适合 需要 优先 考虑 速度 的 应 用 , 包括 实时 视 
觉 跟踪 、 目 标识 别 等 ， 它 们 需要 在 实时 视频 流 中 跟踪 或 匹配 多 个 点 。 






































8.3.3 扩展 阅读 
应 用 程序 不 同 ， 检 测 特征 点 时 采用 的 策略 也 不 同 。 


例如 在 事先 明确 兴趣 点 数量 的 情况 下 , 可 以 对 检测 过 程 进 行动 态 适 配 。 简 单 的 做 法 是 采用 范 
围 较 大 的 阔 值 检测 出 很 多 兴趣 点 ,然后 从 中 提取 出 半 个 强度 最 大 的 。 为 此 可 使 用 这 个 标准 C+ 函数 : 
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if (numberOfPoints < keypolints.sizel()) 
std: :nth_element (keypoints.begin(), 
keypoints.begin() + numberOfPoints, 
keypoints.end(), 
[] (cv: :KeyPoint& a, cv::KeyPointé& b) { 
return a.response > b.response; }); 





函数 中 keypoints 的 类 型 是 stda: :vector， 表 示 检 测 到 的 兴趣 点 ，numberofPoints 是 
需要 的 兴趣 点 数量 。 最 后 一 个 参数 是 lambda 比较 器 ， 用 于 提取 最 佳 的 兴趣 点 。 请 注意 ， 如 果 检 
测 到 的 兴趣 点 太 少 ( 少 于 需要 的 数量 )， 那 就 要 采用 更 小 的 阔 值 ， 但 是 冰 值 太 宽松 又 会 加 大 计算 
量 ， 所 以 需要 权衡 利弊， 选取 最 佳 的 阔 值 。 


检测 图 像 特征 点 时 还 会 遇 到 一 种 情况 ， 就 是 兴趣 点 的 分 布 很 不 均匀 。keypoints 通常 会 聚 
集 在 纹理 较 多 的 区 域 ， 例 如 教堂 图 像 中 的 100 个 兴趣 点 如 下 图 所 示 。 























图 FAST Features (100) = 回 Xx 








大 部 分 特征 点 都 集中 在 教堂 的 顶部 和 底部 。 对 此 有 一 种 常用 的 处 理 方法 , 就 是 把 图 像 分 割 成 
网 格 状 ， 对 每 个 小 图 像 进 行 单独 检测 。 以 下 代码 就 是 网 格 适 配 特 征 检测 : 


// 最 终 的 关键 点 容器 
keypoints.clear(); 
// 检测 每 个 网 格 
for (int i = 0; i < vstep; i++) 
for (int j = 0; j < hstep; j++) { 
// 在 当前 网 格 创建 ROI 
imageROI = image(cv::Rect (j*hsize, i*vsize, hsize, vsize)); 
// 在 网 格 中 检测 关键 点 
gridpoints.clear(); 
ptrFAST->detect (imageROI, gridpoints); 





// 获取 强度 最 大 的 FAST 特征 
auto itEnd(gridpoints.end()); 
if (gridpoints.size() > subtotal) { 
// 选取 最 强 的 特征 
stdq: :nth_element (gridpoints.begin(), 
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gridpoints.begin() + subtotal, 
gridpoints.end(), 
[] (cv: :KeyPointé& a, 
Cv::KeyPoint& b) { 
return a.response > b.response; }); 
itEnd = gridpoints.begin() + subtotal; 
} 


// 加 入 全 局 特征 容器 
for (auto it = gridpoints.begin(); it != itEnd; ++it) { 
// 转换 成 图 像 上 的 坐标 
it->pt += CV: *hsize, i*vsize); 
keypoints.push back(*it); 
3 
} 


这 里 的 关键 在 于 ， 利 用 ROI 对 每 个 网 格 的 小 图 像 进 行 关键 点 检测 ， 这 样 得 到 的 关键 点 分 布 
较为 均匀 ， 如 下 图 所 示 。 











丰富 FAST Features (grid) 关 口 xX 








8.3.4 ”参阅 
口 OpenCV2 中 有 专门 的 封装 了 适 配 特征 检测 方法 的 类 ， 例 如 cv: :DynamicAdaptedFeature 


Detector 和 GridAdaptedFeatureDetector。 
口 E. Rosten 和 T. Drummond 于 2006 年 发 表 在 European Conference on Computer Vision 第 430 


页 至 第 443 页 的 “Machine learning for high-speed corner detection” 详 细 描 述 了 FAST 特征 
算法 和 它 的 变种 。 

















8.4 ”尺度 不 变 特征 的 检测 


8.1 节 讲 过 ， 特 征 检测 的 视觉 不 变性 是 一 个 非常 重要 的 概念 。 前 面 介 绍 的 特征 检测 器 已 经 可 
以 较 好 地 解决 方向 不 变性 问题 , 即 图像 旋 转 后 仍 能 检测 到 相同 的 特征 点 。 但 是 要 解决 尺度 不 变性 
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问题 , 难度 就 大 多 了 。 为 解决 这 一 问题 , 计算 机 视觉 界 引 入 了 尺度 不 变 特征 的 概念 。 它 的 理念 是 ， 
不 仅 在 任何 尺度 下 拍摄 的 物体 都 能 检测 到 一 致 的 关键 点 , 而 且 每 个 被 检测 的 特征 点 都 对 应 一 个 尺 
度 因子 。 理 想 情 况 下 ， 对 于 两 幅 图 像 中 不 同 尺 度 的 同一 个 物体 点 ， 计 算得 到 的 两 个 尺度 因子 之 间 
的 比率 应 该 等 于 图 像 尺度 的 比率 。 近 几 年 ， 人 们 提出 了 多 种 尺度 不 变 特征 ,本 节 将 介绍 其 中 的 一 
种 : SURF 特征 ， 它 的 全 称 为 加 速 稳 健 特征 ( Speeded Up Robust Feature )。 我 们 将 会 看 到 ， 它 们 
不 仅 是 尺度 不 变 特征 ， 而 且 是 具有 较 高 计算 效率 的 特征 。 























8.4.1 如 何 实现 


SURF 特征 检测 属于 opencv_contrip 库 ， 在 编译 OpenCV 时 包含 了 附加 模块 才能 使 用 ， 详 
见 第 1 章 。 这 里 将 重点 讨论 cv: :xfeatures2d 模块 和 它 的 cv: :xfeatures2d: :SurfFeature 
Detector 类 。 和 其 他 检测 器 一 样 , 检测 兴趣 点 之 前 要 先 创 建 检测 器 实例 , 然后 调用 它 的 检测 方法 : 

// 创建 SURF 特征 检测 器 对 象 

Cv: :Ptr<cv::xfeatures2d: :SurfFeatureDetector> ptrSURF = 

cv: :xfeatures2d: :SurfFeatureDetector: :create(2000.0); 

// 检测 关键 点 

ptrSURF->detect (image, keypoints); 

为 了 画 出 这 些 特征 ,再 次 使 用 OpenCV 的 cv: :drawKeypoints 国 数 ,但 是 要 采用 cv: :Draw 
MatchesFlags: :DRAW_RICH_KEYPOINTS 标志 以 显示 相关 的 尺度 因子 : 














// 画 出 关键 点 ， 包 括 尺 度 和 方向 信息 





cv::drawKeypoints (image, // 原始 图 像 
keypoints, // 关键 点 的 向 量 
featureImage, // 结果 图 像 
cv::Scalar (255,255,255), // 点 的 颜色 


cV: :DrawMatchesFlags: :DRANW_RICH_KEYPOINTS ) ; 


包含 被 检测 特征 的 结果 图 像 如 下 所 示 。 








轩 SURF 二 回 Xx 
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这 里 使 用 cv: :DrawMatchesFlags: :DRAW_RICH _KEYPOINTS 标志 得 到 了 关键 点 的 圆 , 并 
且 圆 的 尺寸 与 每 个 特征 计算 得 到 的 尺度 成 正比 。 为 了 使 特征 具有 旋转 不 变性 ，SURF 还 让 每 个 特 
征 关联 了 一 个 方向 ， 由 每 个 圆 内 的 辐射 线 表 示 。 


如 果 用 不 同 的 尺度 对 同一 个 物体 拍摄 一 张 照片 ， 特 征 检测 的 结果 如 下 所 示 。 














男 卫 SURF (2) 一 口 XxX 





仔细 观察 这 两 幅 图 像 中 的 关键 点 , 可 以 发 现 圆 的 大 小 变化 与 尺度 的 变化 总 是 成 正比 的 。 举 个 
例子 , 通过 观察 教堂 右边 的 两 扇 窗 户 ,可 以 看 出 两 幅 图 像 都 在 这 个 位 置 检测 到 了 SURF 特征 ,并 
且 对 应 的 圆 ( 大 小 不 同 ) 包含 了 同样 的 视觉 元 素 。 当 然 并 不 是 全 部 特征 都 如 此 , 但 是 正如 第 9 章 
将 揭示 的 ， 此 时 的 重复 率 已 经 高 到 可 以 使 两 幅 图 像 得 到 很 好 的 匹配 。 








8.4.2 ”实现 原理 


第 6 章 说 过 ,可 以 用 高 斯 滤波 器 估算 网 像 的 导数 。 高 斯 滤波 器 用 o 参 数 定义 内 核 的 口径 ( 尺 
才 ) 这 个 cc 参数 对 应 了 用 于 构建 滤波 器 的 高 斯 函数 的 变化 幅度 ， 还 隐 式 地 定义 了 计算 导数 的 范 
围 。 事 实 上 ,滤波 带 的 o 值 越 大 ， 图 像 的 细节 越 平滑 。 因 此 ， 它 可 以 在 更 粗 烟 的 范围 内 操作 。 


如 果 在 不 同 的 尺度 内 用 高 斯 滤波 器 计算 指定 像素 的 拉 普 拉 斯 算 子 , 会 得 到 不 同 的 数值 。 观察 
滤波 器 对 不 同 尺度 因子 的 响应 规律 , 所 得 曲线 最 终 在 给 定 的 o 值 处 达到 最 大 值 。 对 于 以 不 同 尺 度 
拍摄 的 两 幅 图 像 的 同一 个 物体 , 对 应 的 两 个 o 值 的 比率 等 于 拍摄 两 幅 图 像 的 尺度 的 比率 。 这 一 重 
要 观察 是 尺度 不 变 特征 提取 过 程 的 核心 。 也 就 是 说 , 为 了 检测 尺度 不 变 特征 , 需要 在 图 像 空 间 ( 图 
像 中 ) 和 尺度 空间 (通过 在 不 同 尺 度 下 应 用 导数 滤波 带 得 到 ) 分 别 计算 局 部 最 大 值 。 


SURF 用 以 下 方法 实现 了 这 个 理论 。 首 先 ， 为 了 检测 特征 而 对 每 个 像素 计算 Hessian 矩阵。 
该 矩阵 衡量 了 一 个 函数 的 局 部 曲率 ， 定 义 如 下 所 示 : 
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oT 067 

Ox 6x6y 
H(x,y)= By 

6x6y 6y’ 


根据 矩阵 的 行列 式 值 ， 可 以 得 到 曲率 的 强度 。 该 方法 把 角 点 定义 为 局 部 高 曲率 ( 即 在 多 个 方 
向 上 的 变化 幅度 都 很 高 ) 的 像素 点 。 这 个 矩阵 由 二 阶 导 数 构 成 ,因此 可 以 用 高 斯 内 核 的 拉 普 拉 斯 
算 子 在 不 同 的 尺度 〈 即 不 同 的 o 值 ) 下 计算 得 到 。 这 样 ，Hessian 矩阵 就 成 了 三 个 变量 的 函数 ， 
即 矿 (x,y,0)。 如 果 Hessian 和 矩阵 的 行列 式 值 在 普通 空间 和 尺度 空间 ( 即 需要 执行 3x3x3 次 非 最 大 
值 抑制 ) 都 达到 了 局 部 最 大 值 , 那么 就 认为 这 是 一 个 尺度 不 变 特 征 。 注意 , 为 了 确认 点 的 有 效 性 ， 
必须 在 cv: :xfeatures2d: :SurfFeatureDetector 类 的 create 方 法 的 第 一 个 参数 中 指定 最 


小 行列 式 值 。 


但 是 在 不 同 尺 度 下 计算 全 部 导数 值 的 计算 量 非常 大 。SURF 算法 的 目标 是 使 这 个 过 程 尽 可 能 
电 高 效 ， 具 体 做 法 是 使 用 近似 的 高 斯 内 核 ， 只 附带 几 个 整数 。 它 们 的 结构 如 下 所 示 : 




















































































































左边 的 内 核 用 于 估算 混合 二 阶 导数 , 右边 的 内 核 用 于 估算 垂直 方向 的 二 阶 导数 。 将 右边 的 内 
核 旋转 后 ， 就 可 估算 水 平方 向 的 二 阶 导数 。 最 小 的 内 核 尺 寸 为 9x9 像素 ， 对 应 ox1.2。 要 在 尺度 
空间 中 使 用 , 需要 连续 应 用 一 系列 内 核 , 并 且 内 核 的 尺寸 逐个 增 大 。 可 以 在 cv: :xfeatures29:: 
SurfFeatureDetector: :create 方法 的 附加 参数 中 指定 滤波 器 的 准确 数量 。 默 认 使 用 12 个 不 
同 尺 寸 的 内 核 (最 大 尺寸 为 99x99 )。 注 意 ， 在 用 直方 图 统计 像素 时 采用 积分 图 像 ， 是 为 了 确保 只 
用 三 个 加 法 运算 就 可 以 计算 每 个 滤波 器 分 支 的 累加 值 ， 与 滤波 器 尺寸 无 关 ， 详 情 请 参见 第 4 章 。 


一 旦 找到 局 部 最 大 值 , 就 可 以 使 用 尺度 空间 和 图 像 空 间 的 插值 法 , 获得 被 检测 兴趣 点 的 精确 
位 置 。 最 后 得 到 一 批 亚 像素 级 的 特征 点 ， 并 且 每 个 特征 点 都 关联 一 个 尺度 值 。 



































8.4.3 扩展 阅读 


SURF 算法 是 SIFT 算 法 的 加 速 版 ， 而 SIFT ( Scale-Invariant Feature Transform ， 尺 度 不 变 特 
征 转 换 ) 是 男 一 种 著名 的 尺度 不 变 特征 检测 法 。 


SIFT 特征 检测 算法 
SIFT 检测 特征 时 也 采用 了 图 像 空间 和 尺度 空间 的 局 部 最 大 值 ， 但 它 使 用 拉 普 拉 斯 滤波 器 响 
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应 ， 而 不 是 Hessian 行列 式 值 。 这 个 拉 普 拉 斯 算 子 是 利用 高 斯 滤波 器 的 差 值 ， 在 不 同 尺度 ( 即 逐 
步 加 大 o 值 ) 下 计算 得 到 的 ， 详 情 请 参见 第 6 章 。 为 了 提高 性 能 ，c 值 每 翻 一 倍 ， 图 像 的 尺寸 就 
缩小 一 半 。 每 个 金字 塔 级 别 代 表 一 个 八 度 (octave )， 每 个 尺度 是 一 图 层 ( layer )。 一 个 八 度 通常 
有 三 个 图 层 。 


下 图 表示 两 个 八 度 的 金字 塔 ， 其 中 第 一 个 八 度 的 四 个 高 斯 滤波 图 像 产生 了 三 个 DoG 网 层 。 
































SIFT 特征 的 检测 过 程 与 SURF 非常 相似 : 


// 构建 SIFT 特征 检测 器 实例 
cV::PLr<cV::Xfeatures2dq: :SiftFeatureDetector> ptrSIFT = 
cv::xfeatures2d: :SiftFeatureDetector::create(); 


// 检测 关键 点 

ptrSIFT->detect (image, keypoints); 

构造 函数 的 参数 都 用 了 缺 省 值 ,但 你 也 可 以 指定 所 需 的 SIFT 点 的 数量 ( 保留 强度 最 大 的 点 入 
每 个 八 度 包含 的 图 层 数 以 及 o 的 初始 值 。 如 果 检 测 时 采用 三 个 八 度 ( 默认 值 )， 检 测 结果 的 尺度 
范围 会 非常 宽 ， 结 果 如 下 图 所 示 。 








团 a SIFT 一 回 xX 











由 于 SIFT 基于 浮 点 内 核 计算 特征 点 , 因此 通常 认为 SIFT 算 法 检测 在 空间 和 尺度 上 能 取得 更 
加 精确 的 定位 。 基 于 同样 的 原因 ， 它 的 计算 效率 也 更 低 ， 尽 管 相对 效率 取决 于 具体 的 实现 方法 。 





本 节 使 用 cv: :xfeatures2d: :SurfFeatureDetector 和 cv: :xfeatures2d: :SiftFeature 
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Detector 类 作为 兴趣 点 检测 器 ,同样 ,也 可 以 使 用 cv: :xfeatures2d: :SURF 和 cv: :xfeatures2d:: 
SsIFT 类 (它们 的 格式 是 一 样 的 )。SURF 和 SIFT 运算 既 包 含 了 检测 功能 ， 还 可 以 描述 兴趣 点 ， 




















详情 请 参见 第 9 章 。 




















8.4.4 ”参阅 














最 后 提醒 一 下 ，SURF 和 SIFT 是 受 专利 保护 的 ， 在 用 于 商业 化 应 用 程序 时 必须 遵守 许可 协 
议 。 这 也 是 它们 被 放 在 cv: :xfeatures2d 包 中 的 原因 之 一 。 









































口 6.6 节 详 细 介绍 了 拉 普 拉 斯 -高 斯 算 子 和 不 同 高 斯 差 的 应 用 。 

D 4.8 节 解释 了 为 什么 积分 图 像 能 提高 计算 像素 和 的 速度 。 

口 9.3 节 将 解释 如 何在 稳健 图 像 严 配 中 使 用 尺度 不 变 特征 。 

口 H. Bay、A. Ess、T Tuytelaars 和 工 . Van Gool 于 2008 年 发 表 在 Computer Vision and Image 





Understanding 第 110 卷 第 3 期 第 346 页 至 第 359 页 的 “SURF: Speeded Up Robust Features” 


描述 了 SURF 算法 。 


口 D. Lowe 于 2004 年 发 表 在 International Journal of Computer Vision 第 60 卷 第 2 期 第 91 页 
至 第 110 页 的 “Distinctive Image Features from Scale Invariant Features” 描 述 了 SIFT 算 法 。 


8.5 多 尺度 FAST 特征 的 检测 


FAST 是 一 种 快速 检测 图 像 关键 点 的 方法 。 使 用 SURF 和 SIFT 算法 时 , 侧重 点 在 于 设计 尺度 


不 变 特征 。 而 再 之 后 提出 的 兴趣 点 检测 新 方法 既 能 1 











速 检测 ， 又 不 随 尺度 改变 而 变化 。 本 节 将 介 


绍 BRISK ( Binary Robust Invariant Scalable Keypoints， 二 元 稳健 恒定 可 扩展 关键 点 ) 检测 法 ， 它 
基于 上 一 节 介绍 的 FAST 特征 检测 法 。 本 节 还 将 讨论 另 一 种 检测 方法 ORB ( Oriented FAST and 








Rotated BRIEF ， 定 向 FAST 和 旋转 BRIEF )。 在 需要 进行 快速 可 靠 的 图 像 匹 配 时 ， 这 两 种 特征 点 
检测 法 是 非常 优秀 的 解决 方案 。 如 果 能 搭配 上 相关 的 二 值 描述 子 , 它们 的 性 能 能 进一步 提高 , 在 


第 9 章 将 详细 讨论 。 


8.5.1 如 何 实现 





根据 上 一 节 介 绍 的 方法 ， 首 先 创建 检测 带 实 例 ， 然 后 对 一 幅 图 像 调用 aetect 方法 : 


// 构造 BRISK 特征 检测 器 对 象 





Cv:Ptr<Cv: BRISKS pLrBRISK = CCV:BRISK: create()}: 


// 检测 关键 点 
ptrBRISK->detect (image, keypoints); 





下 图 显示 了 在 多 个 尺度 下 检测 到 的 BRISK 关键 点 。 
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夯 卫 BRISK = 口 xX 








8.5.2 ”实现 原理 


BRISK 不 仅 是 一 个 特征 点 检测 需 , 它 还 包含 了 描述 每 个 被 检测 关键 点 的 邻 域 的 过 程 , 后 者 也 
是 第 9 章 的 主题 。 这 里 将 讨论 如 何 用 BRISK 算法 在 多 个 尺度 下 快速 检测 关键 点 。 


为 了 在 不 同 尺 度 下 检测 兴趣 点 , 该 算法 首先 通过 两 个 下 采样 过 程 构建 一 个 图 像 金字 塔 。 第 一 
个 过 程 从 原始 图 像 尺 寸 开 始 ， 然 后 每 一 图 层 ( 八 度 ) 减少 一 半 。 第 二 个 过 程 先 将 原始 图 像 的 尺寸 
除 以 1.5 得 到 第 一 幅 图 像 ， 然 后 在 这 幅 图 像 的 基础 上 每 一 层 减少 一 半 ， 两 个 过 程 产生 的 图 层 交 替 
在 一 起 。 









































然后 在 该 金字 塔 的 所 有 图 像 上 应 用 FAST 特征 检测 器 , 提取 关键 点 的 条 件 与 SIFT 算 法 类 似 。 
首先 , 将 一 个 像素 与 相 邻 的 八 个 像素 之 一 进行 强度 值 的 比较 , 只 有 是 局 部 最 大 值 的 像素 才 可 能 成 
为 关键 点 。 这 个 条 件 满足 后 ， 比 较 这 个 点 与 上 下 两 层 的 相 邻 像素 的 评分 ; 如 果 它 的 评分 在 尺度 上 
也 更 高 , 那么 就 认为 它 是 一 个 兴趣 点 。BRISK 算法 的 关键 在 于 , 金字 塔 的 各 个 图 层 具有 不 同 的 分 
辩 率 。 为 了 精确 定位 每 个 关键 点 ， 算 法 需要 在 尺度 和 空间 两 个 方面 进行 插值 。 搬 值 基于 FAST 关 
键 点 评分 。 在 空间 方面 ， 在 3x3 的 邻 域 上 进行 插值 ; 在 尺度 方面 ， 计 算 要 符合 一 个 一 维 抛物 线 ， 
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该 抛物 线 在 尺度 坐标 轴 上 ，, 穿 过 当前 点 和 上 下 两 层 的 两 个 相 邻 的 局 部 关键 点 , 这 个 关键 点 在 尺度 
上 的 位 置 见 前 面 的 图 片 。 这 样 做 的 结果 是 ， 即 使 在 不 连续 的 图 像 尺 度 上 执行 FAST 关键 点 检测 ， 
最 后 检测 到 的 每 个 关键 点 的 对 应 尺度 也 还 是 连续 的 值 。 


cv: :BRISK 检测 屁 有 两 个 主要 参数 , 第 一 个 参数 是 判断 FAST 关键 点 的 闪 值 , 第 二 个 参数 是 
图 像 金 字 塔 中 生成 的 八 度 的 数量 。 这 个 例子 使 用 了 5 个 八 度 ， 因 此 检测 到 了 很 多 关键 点 。 









































8.5.3 扩展 阅读 


在 OpenCV 中 ，BRISK 并 不 是 唯一 的 多 尺度 快速 检测 器 ， 还 有 一 个 ORB 特征 检测 器 也 能 进 
行 关 键 点 的 快速 检测 。 


ORB 特征 检测 算法 


ORB 代表 定向 FAST 和 旋转 BRIEF。 这 个 缩写 的 第 一 层 意思 表示 关键 点 检测 ， 第 二 层 意思 
表示 ORB 算法 提供 的 描述 子 。 本 节 关 注 检测 方法 ， 下 一 章 将 介绍 描述 子 。 


跟 BRISK 一 样 ，ORB 首先 创建 一 个 图 像 金 字 塔 。 它 由 一 系列 图 层 组 成 ， 每 个 图 层 都 是 用 固定 
的 缩放 因子 对 前 一 个 图 层 下 采样 得 到 的 ( 典型 情况 是 用 8 个 尺度 ,缩放 因子 为 1.2; 这 是 创建 
cv: :ORB 检测 器 的 默认 参数 )。 在 具有 关键 点 评分 的 位 置 接受 N 个 强度 最 大 的 关键 点 ， 关 键 点 
评分 用 的 是 8.2 方 定义 的 Harris 角 点 强度 衡量 方法 ( 这 个 方法 的 作者 发 现 ， 衡 量 强度 时 用 Harris 
评分 比 用 常规 的 FAST 角 点 强度 更 准确 )。 


ORB 检测 器 的 原理 基于 一 个 现象 ， 即 每 个 被 检测 的 兴趣 点 总 是 关联 了 一 个 方向 。 我 们 将 在 
下 一 章 看 到 ， 这 个 信息 可 用 于 校准 不 同 图 像 中 检测 到 的 关键 点 描述 子 。7.6 节 介 绍 了 图 像 轮廓 矩 
的 概念 ， 并 且 特 别 展示 了 如 何 用 前 三 个 轮廓 矩 计算 区 域 的 重心 。ORB 算法 建议 使 用 关键 点 周围 
的 圆 形 邻 域 的 重心 的 方向 。 因 为 根据 定义 ，FAST 关键 点 肯定 有 一 个 偏离 中 心 点 的 重心 ， 中 心 点 
与 重心 连 线 的 角度 总 是 非常 明确 的 。 


ORB 特征 的 检测 方法 如 下 所 示 : 


// 构造 ORB 特征 检测 器 对 象 
Cy hreer snes to. 各 











































































































CV::ORB: :create(75, // 关键 点 的 总 数 
1.2， // 图 层 之 间 的 缩放 因子 
8); // 金字 塔 的 图 层 数量 
// 检测 关键 点 


PtrORB->detect (image, keypoints); 


调用 的 结果 如 下 所 示 。 
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夯 卫 ORB 一 回 xX 











因为 金字 塔 中 每 个 图 层 的 关键 点 都 是 独立 检测 的 , 所 以 检测 絮 会 在 不 同 尺度 中 重复 检测 同一 
个 特征 点 


[WO 





8.5.4 ”参阅 


口 9.4 节 将 解释 如 何 用 简单 的 二 元 描述 子 快速 稳健 地 匹配 这 些 特征 。 

口 S. Leutenegger、M. Chli 和 有 R.Y Siegwart 于 2011 年 发 表 在 JIEEE International Conference on 
Computer Vision 第 2448 页 至 第 2555 页 的 “BRISK: Binary Robust Invariant Scalable Keypoint” 
描述 了 BRISK 特征 算法 。 

口 E. Rublee 、V. Rabaud、K. Konolige 和 G Bradski 于 2011 年 发 表 在 JEEE International Conference 

on Computer Vision 第 2564 页 至 第 2571 页 的 “ORB: an efficient alternative to SIFT or SURF” 

描述 了 ORB 特征 算法 。 











接 述 和 [匹配 兴趣 扣 








本 章 包 括 以 下 内 容 : 

口 局 部 模板 匹配 ; 

口 描述 并 匹配 局 部 强度 值 模 式 ; 
口 用 二 值 描述 子 匹 配 关键 点 。 




















9.1 简介 


上 一 章 讲 解 了 如 何 检 测 图 像 中 的 特殊 点 集 , 以 便 进 行 后 续 的 局 部 图 像 分 析 。 这 些 关 键 点 都 具 
有 足够 的 独特 性 ; 如 果 一 个 物体 在 一 幅 图 像 中 被 检测 到 关键 点 , 那么 同一 个 物体 在 其 他 图 像 中 也 
会 检测 到 同一 个 关键 点 。 我 们 还 认识 了 几 个 更 复杂 的 兴趣 点 检测 器 , 它们 可 以 在 关键 点 上 设置 有 
代表 性 的 缩放 因子 和 (或 ) 方向 。 我 们 将 在 本 章 看 到 ， 这 个 额外 的 信息 可 用 于 规范 不 同 视角 的 场 
景 展示 。 


为 了 进行 基于 兴趣 点 的 图 像 分 析 , 我 们 需要 构建 多 种 表征 方式 ,精确 地 描述 每 个 关键 点 。 本 
章 将 探讨 从 兴趣 点 提取 描述 子 的 各 种 方法 。 这些 描 述 子 通 常 是 二 值 类 型 、 整 数 型 或 浮 点 数 型 组 成 
的 一 维 或 二 维 向 量 , 描述 了 一 个 关键 点 和 它 的 邻 域 。 好 的 描述 子 要 具有 足够 的 独特 性 ,能 唯一 地 
表示 图 像 中 的 每 个 关键 点 。 它 还 要 有 足够 的 鲁 棒 性 , 在 照度 变化 或 视角 变动 时 仍 能 较 好 地 体现 同 
一 批 点 集 。 理 想 的 描述 子 还 要 简洁 ， 以 减少 对 内 存 的 占用 、 提 高 计算 效率 。 


图 像 匹 配 是 关键 点 的 常用 功能 之 一 , 它 的 作用 包括 关联 同一 场景 的 两 幅 图 像 、 检 测 图 像 中 事 
物 的 发 生地 点 ， 等 等 。 本 章 将 讲解 几 种 基本 的 匹配 策略 ， 下 一 章 将 更 深入 地 讨论 。 



























































9.2 局 部 模板 匹配 


通过 特征 点 匹配 ， 可 以 将 一 幅 图 像 的 点 集 和 另 一 幅 图 像 (或 一 批 图像 ) 的 点 集 关联 起 来 。 如 
果 两 个 点 集 对 应 着 现实 世界 中 的 同一 个 场景 元 素 ， 它 们 就 应 该 是 匹配 的 。 
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仅 凭单 个 像素 就 判断 两 个 关键 点 的 相似 度 显 然 是 不 够 的 , 因此 要 在 匹配 过 程 中 考虑 每 个 关键 
点 周围 的 图 像 块 。 如 果 两 幅 图 像 块 对 应 着 同一 个 场景 元 素 ， 那么 它们 的 像素 值 应 该 会 比较 相似 。 
本 节 介 绍 的 方案 是 对 图 像 块 中 的 像素 进行 逐个 比较 。 这 可 能 是 最 简单 的 特征 点 匹配 方法 了 , 但 是 
并 不 是 最 可 靠 的 。 不 过 在 某 些 情况 下 ， 它 也 能 得 到 不 错 的 结 

















9.2.1 如 何 实现 


最 常见 的 图 像 块 是 边 长 为 奇数 的 正方 形 , 关键 点 的 位 置 就 是 正方 形 的 中 心 。 可 通过 比较 块 内 
像素 的 强度 值 来 衡量 两 个 正方 形 图 像 块 的 相似 度 。 常 见 的 方案 是 采用 简单 的 差 的 平方 和 ( Sum of 
Squared Differences，SSD ) 算法 。 下 面 是 特征 匹配 策略 的 具体 步 又。 首先 检测 每 幅 图 像 的 关键 
点 ， 这 里 使 用 FAST 检测 器 : 

// 定义 特征 检测 器 

cv::PLr<cV: :FeatureDetector> ptrDetector; // 泛 型 检测 器 指针 


ptrDetector= // 这 里 选用 FAST 检测 器 
cV: :FaSstPeatureDetector : :create(80) 






































// 检测 关键 点 
ptrDetector->detect (imagel ,keypoints1); 
ptrDetector->detect (image2, keypoints2); 


这 里 采用 了 可 以 指向 任何 特征 检测 器 的 泛 型 指针 类 型 Cvi*Ptr<cv: :FeatureDetectorSvo 
上 述 代 码 可 用 于 各 种 兴趣 点 检测 器 ， 只 需 在 调用 函数 时 更 换 检测 器 即 可 。 


然后 定义 一 个 特定 大 小 ( 例如 11x11 ) 的 矩形 ， 用 于 表示 每 个 关键 点 周围 的 图 像 块 : 


// 定义 正方 形 的 邻 域 

const int nsize(11); // 邻 域 的 尺寸 
cvV::Rect neighborhood(0, 0, nsize, nsize); // 11x11 

ov Mat Patechl; 

cv::Mat patch2; 


将 一 幅 图 像 的 关键 点 与 男 一 幅 图 像 的 全 部 关键 点 进行 比较 。 在 第 二 幅 图 像 中 找 出 与 第 一 幅 图 
像 中 的 每 个 关键 点 最 相似 的 图 像 块 。 这 个 过 程 用 两 个 谍 套 循环 实现 ， 代 码 如 下 所 示 : 
// 在 第 二 幅 图 像 中 找 出 与 第 一 幅 图 像 中 的 每 个 关键 点 最 匹配 的 


cv::Mat result; 
std: :vector<cv: :DMatch> matches; 























// 针对 图 像 一 的 全 部 关键 点 


for (int i=0; i<keypointsl.size(); i++) { 





// 定义 图 像 块 
neighborhood.x = keypointsl[i] .pt.x-nsize/2; 
neighborhood.y = keypointsl[i] .pt.y-nsize/2; 





// 如 果 邻 域 超出 图 像 范 围 ， 就 继续 处 理 下 一 个 点 
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if (neighborhood.x<0 || neighborhood.y<0 || 
neighborhood.x+nsize >= imagel.cols || 
neighborhood.y+nsize >= imagel .rows) 
continue; 


// 第 一 幅 图 像 的 块 
patchl = imagel (neighborhood); 


// 存放 最 匹配 的 值 
cv::DMatch bestMatch; 


// 针对 第 二 幅 图 像 的 全 部 关键 点 
for (int j=0; j<keypoints2.size(); j++) { 





// 定义 图 像 块 
neighborhood.x = keypoints2[j] .pt.x-nsize/2; 
neighborhood.y = keypoints2[j] .pt.y-nsize/2; 








// 如 果 邻 域 超出 图 像 范围 ， 就 继续 处 理 下 一 个 点 

if (neighborhood.x<0 || neighborhood.y<0 || 
neighborhood.x + nsize >= image2.cols || 
neighborhood.y + nsize >= image2 .rows) 

continue; 


// 第 二 幅 图 像 的 块 
patch2 = image2 (neighborhood); 





// 匹配 两 个 图 像 块 
cv::matchTemplate(patch],patch2,result, cv::TM SODIFF); 





// 检查 是 否 为 最 佳 匹 配 
if (result.at<float>(0,0) < bestMatch.distance) { 





bestMatch.distance= result.at<float>(0,0); 
bestMatch.aqueryIdx= i; 
bestMatch.trainIdx= j; 
} 
} 


// 添加 最 佳 匹配 
matches.push _ back (bestMatch); 


} 

主意 ， 这 里 用 cv::matchTemplate 函 函数 来 计算 图 像 块 的 相似 度 (下 一 节 将 详细 介绍 
函数 )。 找 到 一 个 可 能 的 匹配 项 后 ， 用 一 个 cv: :DMatch 对 象 来 表示 。 这 个 工具 类 存储 了 两 个 被 
匹配 关键 点 的 序号 和 它们 的 相似 度 。 


两 个 图 像 块 越 相似 , 它们 对 应 着 同一 个 场景 点 的 可 能 性 就 越 大 。 因 此 需要 根据 相似 度 对 匹配 
结果 进行 排序 : 


// 提取 25 个 最 佳 匹配 项 
stdq: :nth element (matches.begin(), 
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matches.begin() + 25,matches.end()); 
matches .erase (matches.begin() + 25,matches.end()); 


你 可 以 用 一 个 相似 度 阔 值 筛选 这 些 匹配 项 , 并 得 出 筛选 结 果 。 这 里 保留 相似 度 最 高 的 V 个 匹 
配 项 (为 了 方便 显示 结果 ,选用 N= 25 )。 

有 趣 的 是 ，OpenCV 本 身 就 带 有 一 个 能 显示 匹配 结果 的 函数 一 一 它 把 两 幅 图 像 拼接 起 来 ， 然 
后 用 线条 连接 每 个 对 应 的 点 。 函 数 的 用 法 如 下 所 示 : 


// 画 出 匹配 结果 
cv::Mat matchImage; 














cv::drawMatches (imagel, keypointsl1, // 第 一 幅 图 像 
image2, keypoints2, // 第 二 幅 图 像 
matches, // 匹配 项 的 向 量 
cv::Scalar (255,255,255), // 线条 颜色 
cv::Scalar(255,255,255)); // 点 的 颜色 


得 到 的 结果 如 下 所 示 。 








于 了 Matches x 














9.2.2 ”实现 原理 


这 样 的 结果 显然 并 不 理想 ,但 是 通过 观察 这 些 点 集 的 匹配 结果 ,也 能 发 现 一 些 成 功 的 匹配 项 ， 
而 且 有 些 错 误 匹 配 是 教堂 塔楼 的 对 称 性 造成 的 。 另 外 , 因为 我 们 试图 在 右 侧 图 像 中 找到 左 侧 网 像 
的 所 有 点 集 , 所 以 出 现 了 一 个 右 侧 点 集 与 多 个 左 侧 点 集 匹配 的 情况 。 有 一 些 方法 可 以 修正 这 种 不 
对 称 的 匹配 项 ， 例 如 让 右 侧 点 集 只 保留 相似 度 最 大 的 匹配 项 。 


这 里 用 一 个 简单 的 标准 来 比较 图 像 块 , 即 指定 cv: :TM_sQDIFF 标志 , 逐个 像素 地 计算 差 值 
的 平方 和 。 在 比较 图 像 I 的 像素 (x, y) 和 图 像 的 像素 (x', y') 时 ， 用 下 面 的 公式 衡量 相似 度 : 
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这 些 (i, 站 点 的 累加 值 就 是 以 每 个 点 为 中 心 的 整个 正方 形 模板 的 偏 移 值 。 如 果 两 个 图 像 块 比较 
相似 , 它们 的 相 邻 像素 之 间 的 差距 就 比较 小 ， 因 此 累加 值 最 小 的 块 就 是 最 匹配 的 图 像 块 。 该 功能 
通过 匹配 函数 的 主 循 环 实现 , 即 针对 一 幅 图 像 的 每 个 关键 点 , 在 男 一 幅 图 像 中 找 出 差 值 平方 和 最 
小 的 关键 点 。 也 可 以 设置 一 个 闪 值 排除 掉 差 值 平 方 和 超过 该 闪 值 的 匹配 项 。 本 例 只 是 将 结果 按 
照相 似 度 从 高 到 低 进 行 排序 。 


这 个 例子 用 11x11 的 方块 进行 匹配 。 采 用 更 大 的 邻 域 会 使 图 像 块 更 具 独 特性 , 但 是 也 会 导致 
对 局 部 的 场景 变化 更 加 敏感 。 


只 要 两 幅 图 像 的 视角 和 光照 都 比较 相似 , 仅 用 差 值 平方 和 来 比较 两 个 图 像 窗 口 也 能 得 到 较 好 
的 结果 。 实 际 上 ， 只 要 光照 有 变化 ， 图 像 块 中 所 有 像素 的 强度 值 就 会 增强 或 降低 ， 差 值 平 方 也 会 
发 生 很 大 的 变化 。 为 了 减少 光照 对 匹配 结果 的 影响 ， 还 可 采用 衡量 图 像 窗口 相似 度 的 其 他 公式 。 
OpenCV 提供 了 很 多 这 样 的 公式 , 其 中 归 一 化 的 差 值 平方 和 (用 cv: :TM_SQDIFF_NORMED 标志 
非常 实用 : 
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2 
top 本 这 


其 他 相似 度 衡量 方法 基于 信号 处 理 理 论 中 的 相关 性 ， 定 义 如 下 所 示 (用 cv: :TM_CCORR 标志 ): 

















2 ti yt T(x tiy'+) 


如 果 两 个 图 像 块 非常 相似 ， 这 个 值 将 达到 最 大 。 


识别 出 的 匹配 项 存储 在 cv: :DMatch 类 型 的 向 量 中 。cv: :DMatch 数据 结构 本 质 上 包含 两 
个 索引 , 第 一 个 索引 指向 第 一 个 关键 点 向 量 中 的 元 素 , 第 二 个 索引 指向 第 二 个 关键 点 向 量 中 匹配 
上 的 特征 点 。 它 还 包含 一 个 数值 ， 表 示 两 个 已 匹配 的 描述 子 之 间 的 差距 。 运 算 符 < 可 用 于 比较 两 
个 cv::DMatch 实例 ， 它 的 定义 中 用 到 了 这 个 差距 值 。 

为 了 使 结果 更 具 可 读 性 ,在 绘制 匹配 项 时 要 限制 线条 的 数量 。 因 此 , 我 们 只 显示 了 差距 最 小 
的 25 个 匹配 项 。 要 想 实 现 这 个 功能 , 需要 调用 函数 std: :nth_element。 这 个 水 数 将 第 N 个 元 
素 放 在 第 V 个 位 置 ， 将 比 这 个 元 素 小 的 元 素 放 在 它 的 前 面 ， 然 后 清除 向 量 中 的 其 余 元 素 。 























9.2.3 扩展 阅读 
这 个 特征 点 检测 方法 的 关键 是 cv : :matchTemplate 也 数 。 这 里 采用 非常 特殊 的 方式 调用 
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它 ， 即 用 它 来 比较 两 个 图 像 块 。 但 是 这 个 函数 本 身 是 很 通用 的 。 
模板 匹配 


图 像 分 析 中 的 一 个 常见 任务 是 检测 图 像 中 是 否 存 在 特定 的 图 案 或 物体 ,实现 方法 是 把 包含 该 
物体 的 小 图 像 作为 模板 , 然后 在 指定 图 像 上 搜索 与 模板 相似 的 部 分 。 搜索 的 范围 通常 仅 限于 可 能 
发 现 该 物体 的 区 域 。 在 这 个 区 域 上 滑动 模板 , 并 在 每 个 像素 位 置 计算 相似 度 。 执 行 这 个 操作 的 函 
数 是 cv: :matchTemplate， 函 数 的 输入 对 象 是 一 个 小 图 像 模板 和 一 个 被 搜索 的 图 像 。 


结果 是 一 个 浮 点 数 型 的 cv: :mat 函数 ,表示 每 个 像素 位 置 上 的 相似 度 。 假 设 模板 尺寸 为 Mx NWN， 
图 像 尺 十 为 天 x 且 ， 那么 结果 矩阵 的 尺寸 就 是 ( 玉 - M+ 1) x (8H -N+ 1)。 我 们 通常 只 关注 相似 度 最 
高 的 位 置 。 典 型 的 模板 匹配 代码 如 下 所 示 ( 假设 目标 变量 就 是 这 个 模板 ): 

// 定义 搜索 区 域 


cv::Mat roi(image2，// 这 里 用 图 像 的 上 半 部 分 
Cv: :Rect (0,0,image2.cols,image2 .rows/2)); 

















































































































// 进行 模板 匹配 


cv::matchTemplate (roi, // 搜索 区 域 
target, // 模板 
result, // 结果 


CV: :TM_SQDIFF); // 相似 度 


// 找到 最 相似 的 位 置 

double minVval, maxVal; 

Cv::Point minpt, maxpt; 

cv: :minMaxLoc (result, &minVal, é&maxVal, &minpt, &maxpt); 


// 在 相似 度 最 高 的 位 置 绘制 矩形 
// 本 例 中 为 minPt 
cv::rectangle(roi, cv::Rect (minpt.x, minpt.y, 
target.cols, target.rows), 255); 


一 定 要 记 住 ， 这 个 操作 是 非常 耗 时 的 ， 因 此 应 该 限制 搜索 的 区 域 ,， 并且 模 板 的 像素 要 少 。 





9.2.4 ”参阅 
口 9.3 节 将 介绍 在 本 节 中 实现 匹配 策略 的 cv: :BFMatcher 类 。 


9.3 描述 并 匹配 局 部 强度 值 模式 


第 8 章 讨 ; ot Eh 方向 和 尺度 。 
在 定义 分 析 特 征 点 的 窗口 大 小 时 , 要 用 到 尺度 因子 的 信息 。 因 此 不 管 该 特征 所 属 物体 的 拍摄 比例 
是 多 大 , 定义 的 邻 域 都 将 包含 同样 的 视觉 信息 。 本 节 将 介 0 述 子 来 描述 兴趣 点 的 邻 
域 。 在 图 像 分 析 中 ,， 可 以 用 邻 域 包含 的 视觉 信息 来 标识 每 个 特征 点 ， 以 便 区 分 各 个 特征 点 。 特 征 
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描述 子 通 稼 是 一 个 六 维 的 向 量 , 在 光照 变化 和 拍摄 角度 发 生 微小 扭曲 时 , 它 描述 特征 点 的 方式 不 
会 发 生变 化 。 通 常 可 以 用 简单 的 差 值 矩阵 来 比较 描述 子 , 例如 用 欧 几 里 得 距离 。 综 上 所 述 ， 特 征 
描述 子 是 一 种 非常 强大 的 工具 ， 能 进行 目标 的 匹配 。 











9.3.1 如 何 实现 


抽象 类 cv: :Feature2D 定义 了 很 多 成 员 函 数 , 用 于 计算 一 组 关键 点 的 描述 子 。 大 多 数 基 于 
特征 的 方法 都 包含 一 个 检测 器 和 一 个 描述 子 组 件 , 与 cv: :Feature2D 相关 的 类 也 一 样 , 它们 都 
有 一 个 检测 函数 (用 于 检测 兴趣 点 ) 和 一 个 计算 函数 ( 用 于 计算 兴趣 点 的 描述 子 )。cv: : SURF 
和 cv: :SIFT 就 属于 这 些 类 。 例如， 可 以 用 cv: :SURE 的 实例 检测 并 描述 两 幅 图 像 的 特征 点 : 

// 定义 关键 点 的 容器 


std: :vector<cv: :KeyPoint> keypointsl; 
std: :vector<cv: :KeyPoint> keypoints2; 


T 














// 定义 特征 检测 器 
Cv: :Ptr<cv::Feature2D> ptrFeature2D = 
cv: :xfeatures2d: :SURF: :create(2000.0); 


// 检测 关键 点 
ptrFeature2D->detect (imagel, keypoints1); 
ptrFeature2D->detect (image2, keypoints2); 


// 提取 描述 子 

cv::Mat descriptorsl; 

cv::Mat descriptors2; 

ptrFeature2D->compute(imagel, keypointsl1,descriptors1); 
ptrFeature2D->compute (image2, keypoints2,descriptors2); 


对 于 SIFT, 调用 cv: :SIFT: :create 也 数 即 可 。 兴 趣 点 描述 子 的 计算 结果 是 一 个 和 矩阵 ( 即 
cv: :Mat 实例 ), 矩阵 的 行 数 等 于 关键 点 容器 的 元 素 个 数 。 每 行 是 一 个 NN 维 的 描述 子 容器 。 SURF 
描述 子 的 默认 尺寸 是 64， 而 SIFT 的 默认 尺寸 是 128。 这 个 容器 用 于 区 分 特征 点 周围 的 强度 值 图 
案 。 两 个 特征 点 越 相似 ,它们 的 描述 子 容器 就 会 越 接 近 。 注 意 , SURF 兴趣 点 并 不 一 定 要 使 用 SURF 
描述 子 ，SIFT 也 一 样 ;检测 器 和 描述 子 可 以 任意 搭配 。 


现在 可 以 用 这 些 描述 子 来 进行 关键 点 匹配 了 。 与 9.2 节 完 全 一 样 ， 将 第 一 幅 图 像 的 每 个 特征 
描述 子 向 量 与 第 二 幅 图 像 的 全 部 特征 描述 子 进行 比较 , 把 相似 度 最 高 的 一 对 ( 即 两 个 描述 子 向 量 
之 间 的 距离 最 短 ) 保留 下 来 ， 作 为 最 佳 匹 配 项 。 对 第 一 幅 图 像 的 每 个 特征 重复 上 述 步 又 。 这 个 过 
程 已 经 在 OpenCV 的 cv: :BFMatcher 类 中 实现 ， 使 用 起 来 很 方便 ， 免 于 重新 实现 前 面 构建 的 两 
个 循环 。 类 的 用 法 如 下 : 

// 构造 匹配 器 

Cv::BFMatcher matcher (cv::NORM L2); 

// 匹配 两 幅 图 像 的 描述 子 


std: :vector<cv: :DMatch> matches; 
matcher.match(descriptorsl,descriptors2, matches); 

































































194 第 9 章 描述 和 匹配 兴趣 点 





这 个 类 是 cv: :DescriptorMatcher 的 子 类 ， 后 者 定义 了 适合 各 种 匹配 策略 的 通用 接口 。 
返回 的 结果 是 一 个 cv: :DMatch 实例 的 向 量 。 


采用 SURF 的 Hessian 闵 值 ， 第 一 幅 图 像 得 到 74 个 关键 点 ， 第 二 幅 图 像 得 到 71 个 关键 点 。 
这 种 brute-force 方法 ( 穷 举 法 ) 将 进行 74 次 匹配 运算 。 跟 9.2 节 一 样 ,使 用 cv: :drawMatches 
类 得 到 如 下 的 图 像 。 














转 SURF Matches 县 Xx 














可 以 看 到 ， 有些 匹 配 项 正确 地 连接 了 左 侧 的 点 和 右 侧 对 应 的 点 ,， 也 有 些 匹配 项 是 错误 的 。 部 
分 错误 是 建筑 物 的 对 称 性 造成 的 ， 导 致 图 像 无 法 明确 匹配 。 对 SIFT 采用 同样 数量 的 关键 点 ,得 
到 匹配 结果 如 下 所 示 。 














册子 SIFT Matches XxX 
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9.3.2 ”实现 原理 


好 的 特征 描述 子 不 受 照 明和 视角 微小 变动 的 影响 , 也 不 受 图 像 中 噪声 的 影响 , 因此 它们 通常 
基于 局 部 强度 值 的 差 值 。SUREF 描述 子 正 是 如 此 ， 它 在 关键 点 周围 局 部 地 应 用 下 面 的 简易 内 核 : 


















































第 一 个 内 核 度量 水 平方 向 的 局 部 强度 值 差 值 ( 标 为 dx ), 第 二 个 内 核 度量 垂直 方向 的 差 值 ( 标 
为 gy )。 通常 将 用 于 提取 描述 子 向 量 的 邻 域 尺 寸 定 为 特征 值 缩放 因子 的 20 倍 ( 即 20c )。 然 后 把 
这 个 正方 形 区 域 划分 成 更 小 的 4x4 子 区 域 。 对 于 每 个 子 区 域 , 在 5x5 等 分 的 位 置 上 ( 用 尺寸 为 20 
的 内 核 ) 计算 内 核 反 馈 值 (dx 和 dy )。 用 下 面 的 方法 累加 这 些 反 馈 值 ， 为 每 个 子 区 域 提 取 四 个 描 
述 子 值 : 












































[Zadx Tdy Zldx| Zldyl] 


因为 子 区 域 的 数量 是 4x4=16 个 ， 所 以 描述 子 值 的 总 数 为 64 个 。 注 意 ， 为 了 赋予 邻近 像素 
( 即 靠近 关键 点 的 值 ) 更 高 的 权重 , 用 一 个 以 关键 点 为 中 心 的 高 斯 算 子 对 内 核 反 馈 值 进行 加 权 计 
算 (用 0=3.3 及 


dx 和 dy 反馈 值 也 用 于 估算 特征 的 方向 。 在 半径 为 60 的 圆 形 邻 域内 计算 这 些 值 ( 内 核 尺寸 为 
4o )， 该 邻 域 的 位 置 用 间隔 进行 分 片 。 在 指定 的 方向 上 ， 累 计 某 个 角度 间隔 (13 ) 内 的 反馈 值 ， 
向 量 最 长 的 方向 就 定义 为 主 方向 。 

SIFT 描述 子 包含 的 内 容 更 多 ， 它 采用 图 像 梯度 而 不 是 单纯 的 强度 差 值 。 它 也 将 关键 点 周转 
的 正方 形 邻 域 分 割 成 4x4 的 子 区 域 (也 可 以 使 用 8x8 或 2x2 的 子 区 域 )。 在 每 个 区 域内 部 建立 一 
个 梯度 方向 直方 图 , 这 些 方向 被 分 隔 进 8 个 箱子 , 每 个 梯度 方向 数值 的 递增 量 与 梯度 幅 值 成 正比 。 
下 面 的 图 片 描 述 了 这 个 过 程 ， 每 个 星 形 箭头 代表 一 个 局 部 的 梯度 方向 直方 图 。 




































































这 里 有 16 个 直方 图 ， 每 个 直方 图 包含 8 个 连接 在 一 起 的 箱子 ， 它 们 形成 了 一 个 128 维 的 描 
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述 子 。 对 于 SUREF 而 言 ， 梯 度 值 是 用 一 个 以 关键 点 为 中 心 的 高 斯 滤波 器 加 权 计算 得 到 的 ,用 以 降 
低 邻 域 边 界 上 梯度 方向 的 突然 变化 对 描述 子 的 影响 。 为 了 使 差 值 度量 更 加 一 致 ， 最 终 的 描述 子 会 
进行 归 一 化 处 理 。 


使 用 SURF 和 SIFT 的 特征 和 描述 子 可 以 进行 尺度 无 关 的 匹配 。 下 面 的 例子 展示 了 对 两 幅 不 
同 尺 度 的 图 像 做 SURF 匹配 的 结果 ( 这 里 显示 了 50 个 最 佳 的 匹配 项 )。 











大 站 Multi-scale SIFT Matches x 

















2 Es 
cv: :Feature2D 类 有 一个 很 实用 的 函数 ， 可 在 检测 兴趣 点 的 同时 计算 它们 的 描述 子 ， 调 用 
方法 为 


ptrFeature2D->detectAndCompute (image, cv::noArray(), 
keypoints, descriptors); 


9.3.3 扩展 阅读 


用 任何 算法 得 到 的 匹配 结果 都 含有 相当 多 的 错误 匹配 项 ， 但 有 一 些 策略 可 以 提高 匹配 的 质 
量 ， 这 里 介绍 其 中 的 三 种 。 

1. 交叉 检查 匹配 项 

有 一 种 简单 的 方法 可 以 验证 得 到 的 匹配 项 , 即 重新 进行 同一 个 匹配 过 程 , 但 在 第 二 次 匹配 时 ， 
将 第 二 幅 图 像 的 每 个 关键 点 逐个 与 第 一 幅 图 像 的 全 部 关键 点 进行 比较 ,只 有 在 两 个 方向 都 匹配 了 同 
一 对 关键 点 ( 即 两 个 关键 点 互 为 最 佳 匹 配 ) 时 , 才 认 为 是 一 个 有 效 的 匹配 项 。 函数 cv: :BFMatcher 
提供 了 一 个 选项 来 使 用 这 个 策略 ,把 有 关 标 志 设 置 为 true, 函数 就 会 对 匹配 进行 双向 的 交叉 检查 : 


cv::BFMatcher matcher2 (cv: :NORM 1L2, // 度量 差距 
true); // 交叉 检查 标志 


改进 后 的 匹配 结果 如 下 图 所 示 ( 使 用 SURF )。 
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朵 中 SURF Matches (with crosscheck) 口 





2. 比率 检验 法 


很 显然 , 匹配 的 效果 并 不 理想 , 这 是 因为 场景 中 有 很 多 相似 的 物体 , 一 个 关键 点 可 以 与 多 个 
其 他 关键 点 匹配 。 其 中 错误 的 匹配 项 非常 多 ,最 好 能 够 把 它们 排除 掉 。 


为 此 我 们 需要 为 每 个 关键 点 找到 两 个 最 佳 的 匹配 项 , 可 以 用 cv: :Descriptor Matcher 类 
的 knnMatch 方法 实现 这 个 功能 。 因 为 只 需要 两 个 最 佳 匹配 项 ， 所 以 指定 k=2: 

// 为 每 个 关键 点 找 出 两 个 最 佳 匹配 项 

std: :vector<std: :vector<cv: :DMatch>> matches; 


matcher.knnMatch (descriptorsl,descriptors2, 
matches，2); // 找 出 大 个 最 佳 匹 配 项 


下 一 步 是 排除 与 第 二 个 匹配 项 非常 接近 的 全 部 最 佳 匹配 项 。 因 为 knnMatch 生成 了 一 个 
std: :vector 类 型 (此 向 量 的 长 度 为 上 ) 的 std: :vector 类 , 所 以 这 一 步 的 具体 做 法 是 循环 遍 
历 每 个 关键 点 匹配 项 , 然后 执行 比率 检验 法 , 即 计算 排名 第 二 的 匹配 项 与 排名 第 一 的 匹配 项 的 差 
值 之 比 〈 如 果 两 个 最 佳 匹配 项 相等 ， 那 么 比率 为 1 )。 比 率 值 较 高 的 匹配 项 将 作为 模糊 匹配 项 ， 
从 结果 中 被 排除 掉 。 代 码 如 下 所 示 : 


// 执行 比率 检验 法 

double ratio= 0.85; 

std: :vector<std: :vector<cv: :DMatch>>::iterator it; 
for (it= matches.begin(); it!= matches.end(); ++it) { 
































// 第 一 个 最 佳 匹配 项 /第 二 个 最 佳 匹配 项 
if ((*it)[0] .distance/(*it)[1] .distance < ratio) { 
// 这 个 匹配 项 可 以 接受 
newMatches.push_ back((*it)[0]); 
} 
} 
// newMatches 是 新 的 匹配 项 集合 
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Cv: 


原始 匹配 项 集合 中 的 74 对 已 减少 为 现在 的 23 对 。 








转 SURF Matches (ratio test) 3 x 














3. 匹配 差 值 的 阐 值 化 
还 有 一 种 更 加 简单 的 策略 ， 就 是 把 描述 子 之 间 差 值 太 大 的 匹配 项 排除 。 实 现 此 功能 的 是 


:DescriptorMatcher 类 的 radiusMatch 方法 : 


// 指定 范围 的 匹配 

float maxDist= 0.4; 

std: :vector<std: :vector<cv: :DMatch>> matches2; 

matcher.radiusMatch (descriptors1l, descriptors2, matches2, maxDist); 


// 两 个 描述 子 之 间 的 最 大 允许 差 值 
因为 这 个 方法 会 保留 所 有 差 值 小 于 指定 阔 值 的 匹配 项 , 所 以 它 得 到 的 结果 仍 是 sta: : vector 


类 型 的 sta: :vector 实例 。 这 说 明 一 个 关键 点 在 男 一 幅 图 像 上 可 能 有 多 个 匹配 点 ; 反之 ， 有 的 关 
键 点 可 能 会 没有 匹配 项 ( 对 应 的 内 部 类 sta: :vector 的 长 度 为 0 )。 这样, 匹配 项 的 数量 为 50 对 。 

















出 引 SURF Matches (with max radius) 口 





9.4 用 二 值 描 述 子 匹配 关键 点 199 





当然 了 ， 也 可 以 将 这 些 策略 结合 使 用 ， 以 提升 匹配 效果 。 


9.3.4 参阅 


口 8.4 节 介绍 了 相关 的 SURF 和 SIFT 特征 检测 器 ， 并 提供 了 更 多 的 参考 资料 。 

口 10.3 节 将 解释 如 何 利用 图 像 和 场景 几何 形状 来 获得 质量 更 高 的 匹配 项 。 

口 14.4 节 将 介绍 一 种 与 SIFT 相似 的 描述 子 一 一 HOG。 

口 E. Vincent 和 R. Laganiere 于 2001 年 发 表 在 Machine, Graphics and Vision 第 237 页 至 第 260 
页 的 “Matching feature points in stereo pairs: A comparative study of some matching strategies” 


描述 了 其 他 简单 的 匹配 策略 ， 可 用 于 提高 匹配 的 质量 。 











9.4 用 二 值 描述 子 匹配 关键 点 


上 一 节 讲 解 了 如 何 用 提取 自 图 像 强 度 值 梯度 的 、 丰 富 的 描述 子 来 描述 关键 点 。 这 些 描 述 子 是 
浮 点 数 类 型 的 向 量 ， 大 小 为 64、128， 甚 至 更 大 。 这 导致 对 它们 的 操作 将 耗资 巨大 。 为 了 减少 内 
存 使 用 、 降 低 计算 量 ， 人 们 引入 了 将 一 组 比特 位 (0 和 1 ) 组 合成 二 值 描述 子 的 概念 。 这 里 的 难 
点 在 于 , 既 要 易于 计算 ,又 要 在 场景 和 视角 变化 时 保持 鲁 棒 性 。 本 节 将 介绍 其 中 的 几 种 二 值 描述 
子 ， 重点 讲解 ORB 和 BRISK 描述 子 ,第 8 章 介 绍 了 与 它们 相关 的 特征 点 检测 器 。 























9.4.1 如何 实现 


为 OpenCV 检测 器 和 描述 子 具 有 泛 型 接口 , 所 以 二 值 描述 子 ( 例如 ORB ) 的 用 法 与 SURF、 
SIFT 没 有 什么 区 别 。 基 于 特征 的 图 像 匹配 的 整个 过 程 如 下 所 示 : 


// 定义 关键 点 容器 和 描述 子 
std: :vector<cv: :KeyPoint> keypoints1: 
std: :vector<cv: :KeyPoint> keypoints2; 
cv::Mat descriptorsl; 
cv::Mat descriptors2; 








// 定义 特征 检测 器 /描述 子 

// Construct the ORB feature object 

Cv::Ptr<cv::Feature2D> feature = cv::ORB::create(60); 
// 大 约 60 个 特征 点 


// 检测 并 描述 关键 点 

// 检测 ORB 特征 

feature->detectAndCompute(imagel, cv::noArray(), 
keypointsl, descriptorsl); 

feature->detectAndCompute(image2, cv::noArray(), 
keypoints2, descriptors2); 
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// 构建 匹配 器 

cv::BEMatcher matcher(cv::NORM HAMMING); // 二 值 描述 子 一 律 使 用 Hamming 规范 
// 匹配 两 幅 图 像 的 描述 子 

std: :vector<cv: :DMatch> matches; 

matcher.match(descriptors1l, descriptors2, matches); 


这 里 唯一 的 区 别 是 使 用 了 Hamming 规范 ( cv: :NORM_HAMMING 标志 )， 它 通过 统计 不 一 致 
的 位 数 , 计算 两 个 二 值 描 述 子 的 差 值 。 在 很 多 处 理 器 上 ,这 可 以 用 异 或 运算 加 简单 的 位 数 统计 来 
实现 ， 并 且 效 率 很 高 。 下 图 显示 了 匹配 的 结果 。 



































惠子 ORB Matches 2 XxX 








BRISK 是 男 一 个 常见 的 三 值 特征 检测 器 ( 描述 子 )， 用 它 也 能 得 到 类 似 的 结果 。 这 时 要 调用 
BRISK: :create 来 创建 cv: :Feature2D 实例 。 和 第 8 章 一 样 , 它 的 第 一 个 参数 也 是 一 个 冰 值 ， 
用 以 控制 被 检测 特征 点 的 数量 。 





9.4.2 ”实现 原理 


ORB 算法 在 多 个 太 度 下 检测 特征 点 ， 这 些 特征 点 含有 方向 。 基 于 这 些 特 征 点 ，ORB 描述 子 
通过 简单 比较 强度 值 ， 提 取出 每 个 关键 点 的 表征 。 实 际 上 ，ORB 就 是 在 BRIEF 描述 子 的 基础 上 
构建 的 (前面 介 绍 过 BRIEF 描述 子 )， 然 后 在 关键 点 周围 的 邻 域 内 随机 选取 一 对 像素 点 ， 创 建 一 
个 二 值 描述 子 。 比 较 这 两 个 像素 点 的 强度 值 ， 如 果 第 一 个 点 的 强度 值 较 大 ,就 把 对 应 描述 子 的 位 
(bit ) 设 为 1， 否则 就 设 为 0。 对 一 批 随机 像素 点 对 进行 上 述 处 理 ， 就 产生 了 一 个 由 若干 位 〈bit ) 
组 成 的 描述 子 ， 通 常 采用 128 到 512 位 (成 对 地 测试 )。 

这 就 是 ORB 采用 的 模式 。 接 下 来 就 要 判断 用 哪些 像素 点 对 构建 描述 子 了 。 事 实 上 ， 虽然 像 
素 点 对 是 随机 选取 的 , 但 只 要 它们 被 选中 ,就 要 进行 同样 的 二 值 测试 , 并 构建 全 部 关键 点 的 描述 
子 , 以 确保 结果 的 一 致 性 。 直觉 告诉 我 们 , 选择 合适 的 像素 点 对 可 以 使 描述 子 具有 更 大 的 独特 性 。 
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此 外 ,每 个 关键 点 的 方向 是 已 经 确定 的 ,如果 根据 方向 对 该 关键 点 进行 调整 ( 即使 用 相对 于 关键 
点 方向 的 坐标 )， 就 会 导致 强度 值 模式 分 布 的 偏差 。 考 虑 到 这 些 因 素 ， 并 根据 实验 验证 ，ORB 选 
出 了 变化 幅 值 较 高 、 相 关 性 极 低 的 256 对 像素 点 ; 也 就 是 说 ， 针 对 各 种 关键 点 ， 这 些 选用 的 二 值 
测试 项 等 于 0 或 1 的 概率 是 均等 的 ， 并 且 它 们 之 间 的 依赖 性 是 最 小 的 。 


BRISK 描述 子 的 情况 也 非常 类 似 ， 它 的 基础 也 是 成 对 地 比较 强度 值 。 但 有 两 点 不 同 : 第 一 ， 
它 不 是 从 31x31 的 邻 域 中 随机 选取 像素 ， 而 是 从 一 系列 等 间距 的 同心 圆 ( 由 60 个 点 组 成 ) 的 采 
样 模式 中 选取 ; 第 二 ， 这 些 采 样 点 的 强度 值 都 经 过 高 斯 平滑 处 理 ， 处 理 中 使 用 的 值 与 该 像素 到 
圆心 的 距离 成 正比 。BRISK 据 此 选取 了 512 对 点 。 





































































































9.4.3 扩展 阅读 


此 外 还 有 一 些 二 值 描述 子 , 有 兴趣 的 读者 可 以 查看 相关 的 技术 文献 。 这 里 将 介绍 男 一 种 描述 
子 ， 它 也 包含 在 OpenCV 的 contrip 模块 中 。 


FREAK 
FREAK 全 称 为 Fast Retina Keypoint( 快速 视网膜 关键 点 )， 也 是 一 种 二 值 描述 子 , 但 没有 对 
应 的 检测 器 。 它 可 以 应 用 于 所 有 已 检测 到 的 关键 点 ， 例 如 SIFT、SURF 或 ORB。 





与 BRISK 一 样 ，FREAK 描述 子 也 基于 用 同心 圆 定义 的 采样 模式 。 但 为 了 设计 描述 子 ， 设 计 
者 们 使 用 人 眼 进行 了 类 比 。 他 们 发 现 ， 随 着 离 中 央 四 距离 越 来 越 远 ， 视 网 膜 上 的 神经 节 细 胞 密度 
越 来 越 小 。 因 此 他 们 用 43 个 像素 点 构建 了 采样 模式 ， 中 心 点 附近 的 像素 密度 比 其 他 地 方 要 高 得 
多 。 为 了 获得 它 的 强度 值 ， 每 个 像素 都 用 高 斯 内 核 进行 滤波 ， 当 与 中 心 点 的 距离 增加 时 ， 内 核 的 
尺寸 也 随 之 增 大 。 

根据 经 验 ， 可 以 采用 ORB 中 的 类 似 策 略 ， 标 识 出 需要 执行 的 成 对 比较 项 。 通 过 对 几 千 个 关 
键 点 的 分 析 ， 可 得 到 具有 最 高 变化 幅 值 和 最 低 相 关 性 的 二 值 测试 项 ， 最 终 为 512 对 。 

FREAK 还 引入 了 阶梯 式 比较 描述 子 的 概念 。 具体 做 法 是 , 先 执行 表示 较 粗 略 信 息 的 前 128 
位 (用 较 大 的 高 斯 内 核 在 外 围 进行 测试 )。 只 有 对 比 的 描述 子 通 过 了 第 一 步 测试 ， 后 面 的 测试 
才能 进行 。 

用 ORB 算 法 检测 到 关键 点 后 ,只 需 用 下 面 的 方法 创建 cv: :DescriptorExtractor 实例 即 
可 提取 出 FREAK 描述 子 : 


// 用 FREAK 描述 
feature = cv::xfeatures2d: :FREAK: :create(); 


匹配 结果 如 下 所 示 。 

























































































本 节 三 个 描述 子 使 用 的 采样 模式 参见 下 面 的 示意 图 。 







































































































































































































































































































































































































































































HFEHHEHHEHEEEHFEEHHEH HHEHEEE 用 FHHHFEHHEH F 昌 
天 a EE 
划 二 六 村 于 村 机 和 
二 时 局 
| 
EE 日 上 i i 昌 
HH HH HH 人 HH 出 
此 | H 丰 HH 4 和 H 
第 一 个 方块 是 ORB/BRIEF 描述 子 ， 像 素 点 对 是 在 正方 形 网 格 中 随机 选取 的 。 每 个 像素 点 对 





用 线条 连接 起 来 ， 表 示 比 较 两 个 像素 强度 值 的 概率 测试 。 这 里 只 显示 了 8 对 ，ORB 默认 使 用 256 
对 。 中 间 的 方块 是 BRISK 采样 模式 ， 在 圆 形 上 均匀 地 采样 像素 点 (为 了 使 画面 更 清晰 ， 这 里 只 
显示 了 第 一 个 圆 的 点 )。 第 三 个 方块 是 FREAK 的 对 数 极 坐标 的 采样 网 格 。BRISK 的 采样 点 是 均 
匀 分 布 的 ， 而 FREAK 则 是 越 接近 中 心 点 ， 密 度 越 高 。 例 如 ，BRISK 的 外 围 圆 图 上 有 20 个 点 ， 
而 FREAK 的 外 围 圆圈 上 只 有 6 个 点 。 





























9.4.4 ”参阅 


口 8.5 节 介 绍 了 相关 的 BRISK 和 ORB 特征 检测 器 ， 并 提供 了 更 多 的 参考 资料 。 

口 E. M. Calonder 、V. Lepetit、M. Ozuysal 、T. Trzcinski 、C. Strecha 和 了 Fua 于 2012 年 发 表 在 
TEEE Transactions on Pattern Analysis and Machine Intelligence 的 “BRIEF: Computing a Local 
Binary Descriptor Very Fast” 介 绍 了 BRIEF 特征 描述 子 ， 引 入 了 二 值 描 述 子 的 概念 。 

口 A. Alahi、R. Ortiz 和 P. Vandergheynst 于 2012 年 发 表 在 IEEE Conference on Computer Vision and 

Pattern Recognition 的 “FREAK: Fast Retina Keypoint article” 介 绍 了 人 FREAK 特征 描述 子 。 
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本 章 包 括 以 下 内 容 : 


口 计算 图 像 对 的 基础 矩阵 ; 

口 用 RANSAC 算法 匹配 图 像 ; 

口 计算 两 幅 图 像 之 间 的 单 应 矩阵 ; 
口 检测 图 像 中 的 平面 目标 。 











10.1 简介 


图 像 通常 是 由 数码 相机 拍摄 的 , 它 通过 透镜 投射 光线 ,在 图 像 传 感 涡 上 捕获 场景 。 图像 是 三 
维 场景 在 二 维 平面 上 的 投影 , 这 表明 场景 和 它 的 图 像 之 间 以 及 同一 场景 的 不 同 图 像 之 间 都 有 着 重 
要 的 关联 。 投影 几何 学 是 用 数学 术语 描述 和 区 分 成 像 过 程 的 工具 。 本章 将 介绍 几 种 多 视图 图 像 中 
ds ni 0 i lt 
讨 一 下 与 场景 投影 和 成 像 过 程 有 关 的 一 些 基 本 概念 。 


成 像 过 程 


照相 术 发 明 以 来 ， 生 成 图 像 的 基本 过 程 就 没有 变 过 。 光 线 从 被 摄 景象 发 出 并 穿 过 前 置 孔径 ， 
被 相机 捕获 ， 捕 获 到 的 光线 触发 相机 后 面 的 成 像 平 面 〈 或 图 像 传感器 )。 此 外 ， 透 镜 的 使 用 使 来 
自 不 同 场景 元 素 的 光线 得 以 集中 。 下 面 的 示意 图 展现 了 成 像 过 程 。 



































































































































一 被 摄 物体 


成 像 平面 


204 第 10 章 估算 图 像 之 间 的 投影 关系 


























这 里 的 do 是 透镜 到 被 摄 物 体 的 距离 ，di 是 透镜 到 成 像 平面 的 距离 ,f 是 透镜 的 焦距 。 这些 数 
据 的 关系 称 为 薄 镜 公式 : 


在 计算 机 视觉 中 ， 有 多 种 方法 可 以 简化 这 个 相机 模型 。 第 一 种 方法 是 忽略 镜头 的 影响 ， 因 为 
相机 的 口径 极 小 。 从 理论 上 讲 ， 这 并 不 会 改变 图 像 的 外 观 。( 但 是 这 么 做 了 之 后 ， 就 会 创建 无 限 
景深 的 图 像 而 忽略 了 聚焦 效应 。 ) 因此 ， 在 这 种 情况 下 只 需 考 虑 中 心 的 光线 。 第 二 种 方法 是 假定 
成 像 平 面 处 于 焦点 位 置 ， 因 为 大 多 数 情况 下 ao>>qi 成 像 平面 。 最 后 ,根据 几何 学 知识 ,我 们 发 
现成 像 平面 上 的 图 像 是 反 转 的 。 因 此 ， 只 要 把 成 像 平 面 放 在 镜头 前 面 ， 就 能 得 到 跟 原 来 几乎 一 样 
却 不 反 转 的 图 像 。 从 物理 学 上 看 ， 这 显然 不 可 行 ; 但 是 从 数学 的 角度 看 ,结果 完全 是 等 效 的 。 这 
种 简化 模型 通常 称 为 针 孔 照相 机 模型 ， 如 下 图 所 示 。 

























































































被 摄 物体 








根据 这 个 模型 和 相似 三 角形 的 定理 , 我 们 可 以 很 轻松 地 推导 出 表示 被 摄 物体 与 图 像 关 系 的 基 
本 投影 方程 : 
hi=f 
do 
物体 ( 实际 高 度 为 ho ) 对 应 的 图 像 大 小 (有) 与 它 到 相机 的 距离 (qo ) 成 反比 ， 这 是 很 基本 
的 规律 。 在 相机 几何 结构 已 知 的 情况 下 ， 这 个 关系 通常 决定 了 三 维 场景 的 点 在 成 像 平面 上 的 投影 
位 置 。 如 果 坐 标 系 位 于 焦点 上 , 那么 (X, 7, 忆 处 的 三 维 场景 点 会 投影 到 成 像 平面 的 (x, y)=(fX7Z, 17Y/2)。 
Z 方 向 的 值 取 决 于 点 的 深度 ( 即 到 相机 之 间 的 距离 ， 公 式 中 用 do 表示 )。 引 入 齐 次 坐标 系 后 ， 上 
述 关系 就 可 以 用 一 个 简单 的 矩阵 表示 。 在 齐 次 坐标 系 中 ,用 三 个 向 量 表示 一 个 二 维 点 ,用 四 个 向 
量 表示 一 个 三 维 点 (新 增 的 坐标 是 一 个 可 以 任意 缩放 的 因子 s; 从 齐 次 坐标 的 三 向 量 中 提取 二 维 
坐标 时 ， 需 要 移 除 这 个 因子 ): 
































10.2 ”计算 图 像 对 的 基础 矩阵 ”205 








这 个 3x4 的 矩阵 就 是 投影 矩阵 。 如 果 坐 标 系 没 有 与 焦点 对 齐 , 就 需要 引入 旋转 量 x 和 俩 移 量 
t。 引 入 它们 后 ， 就 可 以 把 被 投影 的 三 维 点 表示 为 一 个 以 相机 为 中 心 的 坐标 系 ， 公 式 如 下 所 示 : 





























rl r2 r3 1 2 


f 0 0 
=I0 ff 0llr4 rs rr6 12 
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这 个 公式 的 第 一 个 矩阵 包含 了 相机 的 内 部 参数 ( 这 里 只 有 焦距 ， 下 一 音 将 介绍 更 多 内 部 参 
数 )。 第 二 个 矩阵 包含 了 外 部 参数 ， 即 相机 与 外 部 环境 相关 的 参数 。 需 要 注意 的 是 ， 在 实际 应 用 
中 ， 图 像 坐标 通常 用 像素 值 表示 ， 而 三 维 坐标 通常 用 实际 长 度 表 示 ( 例如 用 米 作为 单位 )。 详情 
请 参见 第 11 章 。 





























10.2 ”计算 图 像 对 的 基础 矩阵 


10.1 节 介 绍 了 投影 方程 , 用 它 解释 了 真实 的 场景 是 如 何 投影 到 单 目 相机 的 成 像 平 面 上 的 。 本 
节 将 探讨 同一 场景 的 两 幅 图 像 之 间 的 投影 关系 。 可 以 移动 相机 ， 从 两 个 视角 拍摄 两 幅 照 片 ; 也 可 
以 使 用 两 个 相机 ,分别 对 同一 个 场景 拍摄 照片 。 如 果 这 两 个 相机 被 刚性 基线 分 割 ， 我 们 就 称 之 为 


立体 视觉 。 




















10.2.1 准备 工作 
现在 来 看 用 两 个 针 孔 相机 观察 同一 个 场景 点 的 情况 ， 如 下 图 所 示 。 











对 极 线 


我 们 知道 ， 沿 着 三 维 点 外 和 相机 中 心 点 之 间 的 连 线 ， 可 在 图 像 上 找到 对 应 的 点 x。 反 过 来 ， 
在 三 维 空间 中 , 与 成 像 平 面 上 的 位 置 x 对 应 的 场景 点 可 以 位 于 线条 上 的 任何 位 置 。 这 说 明 如 果 要 
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根据 图 像 中 的 一 个 点 找到 男 一 幅 图 像 中 对 应 的 点 , 就 需要 在 第 二 个 成 像 平 面 上 沿 着 这 条 线 的 投影 
搜索 。 这 条 虚线 称 为 点 x 的 对 极 线 。 它 规定 了 两 个 对 应 点 必须 满足 的 基本 条 件 ， 即 对 于 一 个 点 ， 
在 男 一 视图 中 与 它 匹 配 的 点 必须 位 于 它 的 对 极 线 上 , 并 且 对 极 线 的 准确 方向 取决 于 两 个 相机 的 相 
对 位 置 。 事 实 上 ， 所 有 对 极 线 组 成 的 结构 决定 了 双 视 图 系统 的 几何 形状 。 


从 这 个 双 视图 系统 的 几何 形状 中 还 能 发 现 一 个 现象 , 即 所 有 的 对 极 线 都 通过 同一 个 点 。 这 个 
点 对 应 着 一 个 相机 中 心 点 在 另 一 个 相机 上 的 投影 (上 图 中 的 e 和 e')。 这 个 特殊 的 点 称 为 极点 。 


图 像 上 的 点 和 它 的 对 极 线 之 间 的 关系 ， 在 数学 上 可 以 用 下 面 的 3x3 矩阵 表示 : 
































在 投影 几何 学 中 ， 可 以 用 三 维 向 量 表示 二 维 直 线 。 它 就 是 一 些 二 维 点 (x',y') 的 集合 ， 满 足 公 
式 石 x+Py46' = 0( 上 标 符 号 表示 这 条 线 属 于 第 二 幅 图 像 )， 因此， 和气 阵 斑 ( 称 为 基础 矩阵 ) 的 
作用 就 是 把 一 个 视图 上 的 二 维 图 像 点 映射 到 男 一 个 视图 上 的 对 极 线 上 。 





10.2.2 ”如 何 实现 


如 果 两 幅 图 像 之 间 有 一 定数 量 的 已 知 匹配 点 ， 就 可 以 利用 方程 组 来 计算 图 像 对 的 基础 矩阵 。 
这 样 的 匹配 项 至 少 要 有 7 对 。 为 了 说 明基 础 矩阵 的 计算 过 程 ， 我 们 从 上 一 章 的 SIFT 特征 匹配 结 
果 中 选择 7 对 较 好 的 匹配 项 。 


用 OpenCYV 函数 cv: :fingdFundamentalMat 计算 基础 矩阵 时 , 将 使 用 这 些 匹配 项 。 这 是 图 
像 对 和 选取 的 匹配 项 。 

















夯 寻 Matches 一 x 
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这 些 匹配 项 存储 在 cv: :DMatch 类 型 的 容器 中 ,其 中 每 个 元 素 代表 一 个 cv: :keypoint 实例 
的 索引 。 为 了 在 cv: :findFundamentalMat 中 使 用 , 需要 先 把 这 些 关 键 点 转换 成 cv: :Point2E 
类 型 。 为 此 可 用 下 而 的 OpenCV 函数 : 

// 把 关键 点 转换 成 Point2f 

std: :vector<cv::Point2f> SelPoints1，selPoints2: 

std: :vector<int> pointIndexesl, pointIndexes2; 


CVv::KeyPoint::convert (keypointsl1,selPointsl1,pointIindexesl1); 
CVv::KeyPoint::convert (keypoints2,selPoints2,pointIindexes2); 


结果 是 selPointsl 和 selPoints2 这 两 个 容器 ,容器 的 元 素 为 两 幅 图 像 中 相关 像素 的 坐标 。 
容器 pointIndqexes1 和 pointIndexes2 包含 这 些 被 转换 的 关键 点 的 索引 。 于 是 调用 cv: :find 
FundamentalMat 国 数 的 方法 为 : 


// 用 7 对 匹配 项 计算 基础 矩阵 
cv::Mat fundamental= cv::findqFundamentalMat ( 



































selPoints1, // 第 一 幅 图 像 中 的 7 个 点 
selPoints2, // 第 二 幅 图 像 中 的 7 个 点 


CV: :FM_7POINT); // 7 个 点 的 方法 


要 想 直 观 地 验证 这 个 基础 矩阵 的 效果 ， 可 以 选取 一 些 点 ， 画 出 它们 的 对 极 线 。OpenCYV 中 有 
一 个 函数 可 计算 指定 点 集 的 对 极 线 。 计 算出 对 极 线 后 , 可 用 函数 cv: :1ine 画 出 它们 。 下 面 的 代 
码 片段 完成 了 这 两 个 步骤 ( 即 在 右 侧 图 像 中 计算 和 画 出 来 自 左 侧 图 像 的 对 极 线 ): 

// 在 右 侧 图 像 上 画 出 对 极 线 的 左 侧 点 

Stdq: :Vector<cV::Vec3f> linesi]l; 


cV: :computeCorrespondEP1i1ines ( 
selPoints1， // 图 像 点 

















下 // 在 第 一 幅 图 像 中 (也 可 以 是 在 第 二 幅 图 像 中 ) 
fundamental，// 基础 矩阵 
lines1); // 对 极 线 的 向 量 


// 遍历 全 部 对 极 线 
for (vector<cv::Vec3f>: :const_iterator it= linesl.begin(); 
it!=linesl.end(); ++it) { 
// 画 出 第 一 列 和 最 后 一 列 之 间 的 线条 
cv::line(image2, cv::Point(0,-(*it) [2]/(*it)[1]), 
cv: :Point (image2.cols, 
=((*iE) 2] Ft (iE Ol “image2.ceoLs}y/ (*it) LL]); 
GV Sa Lar (2 2 2 5) ) 
} 


用 同样 的 方法 得 到 左 侧 图 像 中 的 对 极 线 ， 结 果 如 下 图 所 示 。 
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一 幅 图 像 的 极点 位 于 所 有 对 极 线 的 交叉 点 ,是 男 一 个 相机 中 心 点 的 投影 。 注 意 ,对 极 线 的 交 
叉 点 很 可 能 ( 也 经 常 ) 在 图 像 边 界 的 外 面 。 在 这 个 例子 中 ， 如果 两 幅 图 像 是 同时 拍摄 的 ， 就 能 从 
第 二 幅 图 像 极 点 所 处 的 位 置 看 到 第 一 个 相机 。 此 外 ,这 个 结果 可 能 是 非常 不 稳定 的 ， 因 为 只 用 了 
7 对 匹配 项 计算 基础 矩阵 。 事 实 上 ， 如 果 用 另 一 对 匹配 项 代替 其 中 的 一 对 ， 就 会 产生 一 组 明显 不 
同 的 对 极 线 。 























10.2.3 ”实现 原理 

前 面 解 释 过 , 对 于 图 像 上 的 一 个 点 , 可 以 根据 基础 矩阵 得 到 一 个 线条 的 方程 式 ， 并 在 这 个 线 
条 上 找到 另 一 个 视图 中 与 之 对 应 的 点 。 假 设 点 Ce y) 的 对 应 点 为 (x y)， 这 两 个 视图 间 的 基础 矩阵 
为 刁 ， 由 于 6 y) 位 于 Co 力 和 环 相 乘 得 到 的 对 极 线 上 (用 齐 次 坐标 表示 )， 那 么 可 得 到 以 下 公式 : 


了 














这 个 公式 表示 两 个 对 应 点 之 间 的 关系 ， 称 为 极 线 约 束 。 利 用 这 个 公式 ， 就 可 以 根据 已 知 的 匹 
配 项 计算 矩阵 的 入口。 因为 基础 矩阵 的 入 口 数量 取决 于 尺度 因子 , 所 以 需要 计算 的 人 口上 只 有 8 个 
(第 9 个 可 以 直接 设置 为 1 )。 每 个 匹配 项 产生 一 个 方程 式 。 有 了 8 个 已 知 匹配 项 ， 就 可 以 通过 对 
线性 方程 组 的 求解 ,计算 出 整个 矩阵 。 可 以 通过 在 函数 cv: :findrFrundamentalMat 中 采用 cv : : 
FM_8POINT 标志 来 完成 这 个 过 程 。 注 意 ， 这 时 可 以 〈 最 好 ) 输入 8 个 以 上 的 匹配 项 。 在 均 方 意 
义 下 ， 可 以 解 出 线性 方程 组 的 超 定 系统 。 

计算 基础 矩阵 时 ,可 以 使 用 一 个 附加 的 约束 条 件 。 从 数学 上 看 ,基础 矩阵 把 一 个 二 维 点 映射 
到 一 个 一 维 的 直线 束 上 ( 即 相 交 于 同一 个 点 的 直线 )。 所 有 对 极 线 都 穿 过 同一 个 点 〈 极 点 ) 对 算 
阵 产 生 了 一 个 约束 条 件 , 这 个 约束 条 件 把 计算 基础 矩阵 所 需 的 匹配 次 数 缩减 到 7 次。 用 数学 术语 
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表示 ， 这 个 基础 矩阵 有 7 个 自由 度 ， 因 而 位 于 等 级 2。 不 过 在 这 种 情况 下 ， 方 程 组 将 变 为 非 线性 
的 ， 最 多 会 有 三 种 结果 ( 这 时 函数 cv: :findqFundamentalMat 将 返回 9x3 的 基础 矩阵 ， 包 含 三 
个 3x3 矩阵 )。 在 OpenCV 中 ， 可 通过 使 用 cv: :FM_7POINT 标志 ,采用 7 次 匹配 方案 计算 基础 
和 矩阵 。 


最 后 需要 指出 的 是 ， 如 果 想 要 精确 地 计算 基础 矩阵 ， 匹 配 项 的 选择 是 很 重要 的 。 一 般 来 说 ， 
匹配 项 要 在 整 幅 图 像 中 均匀 分 布 , 并 包含 场景 中 不 同 深度 的 点 , 否则 结果 就 会 不 稳定 。 尤 其 当 所 
选 场景 点 位 于 同一 平面 时 ， 基 础 矩阵 ( 本 例 中 ) 就 会 变 差 。 


















































10.2.4 ”参阅 


口 R. Hartley 和 A. Zisserman 的 Multiple View Geometry in Computer Vision( 剑桥 大 学 出 版 社 ， 
2004 年 ) 是 有 关 计 算 机 视觉 投影 几何 学 最 完整 的 参考 书 。 

口 10.3 节 将 解释 如 何 用 更 多 的 匹配 项 稳定 地 计算 基础 矩阵 。 

口 如 果 匹 配点 位 于 同一 平面 或 是 纯 旋转 的 结果 ， 就 无 法 计算 基础 矩阵 ，10.5 节 将 解释 其 中 
的 原因 。 














10.3 用 RANSAC 随机 抽样 一 致 性 ) 算法 匹配 图 像 


当 用 两 个 相机 拍摄 同一 个 场景 时 , 会 在 不 同 的 视角 下 看 到 相同 的 元 素 。 上 一 章 已 经 讲解 过 了 
特征 点 匹配 问题 ， 本 节 将 重新 探讨 这 个 问题 ， 并 学 习 如 何 进 一 步 使 用 上 一 节 介 绍 的 极 线 约 束 , 使 
图 像 特 征 的 匹配 更 加 可 靠 。 


我 们 遵循 的 原则 很 简单 : 在 匹配 两 幅 图 像 的 特征 点 时 ， 只 接受 位 于 对 极 线 上 的 匹配 项 。 若 要 
判断 是 否 满足 这 个 条 件 ， 必 须 先 知道 基础 矩阵 ,但 计算 基础 矩阵 又 需要 优质 的 匹配 项 。 这 看 起 来 
像 是 “ 先 有 鸡 还 是 先 有 蛋 ” 的 问题 。 本 节 将 提出 一 种 解决 方案 ， 可 以 同时 计算 基础 矩阵 和 一 批 优 
质 的 匹配 项 。 



































10.3.1 ”如何 实现 


我 们 的 目的 是 计算 两 个 视图 间 的 基础 矩阵 和 优质 匹配 项 。 因 此 , 所 有 已 发 现 的 特征 点 的 匹配 
度 都 要 用 上 一 节 的 极 线 约 束 验证 。 我 们 为 此 创建 了 一 个 类 ,封装 了 和 鲁 棒 的 匹配 过 程 的 各 个 步骤 : 




















class RobustMatcher { 
private: 
// 特征 点 检测 器 对 象 的 指针 
Cv::Ptr<cv: :FeatureDetector> detector; 
// 特征 描述 子 提取 器 对 象 的 指针 
CVv::Ptr<cv: :DescriptorExtractor> descriptor; 
int normType; 
float ratio; // 第 一 个 和 第 二 个 NN 之 间 的 最 大 比率 
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bool refineF; // 如 果 等 于 true， 则 会 优化 基础 矩阵 
bool refineM; // 如 果 等 于 true， 则 会 优化 匹配 结果 
double distance; // 到 极点 的 最 小 距离 


double confidence; // 可 信和 度 (概率 ) 
Dublie: 


RobustMatcher (const cv::Ptr<cv::FeatureDetector> &detector, 
const cv::Ptr<cv::DescriptorExtractor> &descriptor= 
CVv: :Ptr<cv: :DescriptorExtractor>()): 
detector (detector), descriptor (descriptor), 
normType (cv: :NORM 1L2), ratio(0.8f), 
refineF (true), refineM(true), 
confidence(0.98), distance(1.0) { 


// 这 里 使 用 关联 描述 子 
if (!this->descriptor) { 
this->descriptor = this->detector; 


} 


使 用 这 个 类 时 ， 只 需 根据 需 要 指定 特征 检测 器 和 描述 子 即 可 。 也 可 以 用 setFeature 
Detector 和 setDescriptorExtractor 这 两 个 设置 方法 来 指定 。 























核心 方法 是 match, 它 返 回 匹 配 项 、 被 检测 的 关键 点 和 计算 得 到 的 基础 矩阵 。 方 法 内 部 有 四 
个 独立 的 步 台 (在 代码 中 用 注释 进行 了 明显 的 划分 )， 我 们 将 详细 探讨 : 


// 用 RANSAC 算法 匹配 特征 点 

// 返回 基础 矩阵 和 输出 的 匹配 项 

cv::Mat match(cv::Mat& imagel, cv::Mat& image2, // 输入 图 像 
std: :vector<cv: :DMatch>& matches, // 输出 匹配 项 
std: :vector<cv::KeyPoint>& keypoints1，// 输出 关键 点 
std: :vector<cv: :KeyPoint>& keypoints2) { 








// 工 .检测 特征 点 
detector->detect (image1l,keypoints1) ; 
detector->detect (image2, keypoints2); 


// 2 .提取 特征 描述 子 

cv::Mat descriptorsl, descriptors2; 
descriptor->compute (imagel,keypointsl,descriptorsl1); 
descriptor->compute (image2, keypoints2,descriptors2); 


// 3. 匹 配 两 幅 图 像 描 述 子 
// ” (用 于 部 分 检测 方法 ) 
// 构造 匹配 类 的 实例 ( 带 交 又 检查 ) 
cv::BFMatcher matcher (normType，// 差距 衡量 
true); // 交叉 检查 标志 
// 匹配 描述 子 
stdq: :Vector<cV: :DMatch> outputMatches; 
matcher .match(dqescriptors1l1,dqesctriptors2,outputMatches) : 
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// 4. 用 RANSAC 算法 验证 匹配 项 
cv::Mat fundamental= ransacTest (outputMatches, 
keypointsl, keypoints2, 








matches); 
// 返回 基础 矩阵 
return fundamental; 
} 
前 面 两 个 步骤 只 是 检测 了 特征 点 并 计算 了 它们 的 描述 子 。 接 下 来 和 上 一 章 一 样 ， 使 用 


cv: :BFMatcher 类 执行 特征 匹配 。 为 提高 匹配 质量 ， 这 里 使 用 了 交叉 检查 标志 。 

第 四 个 步 又 是 本 节 介 绍 的 新 概念 。 它 包含 了 一 个 额外 的 过 滤 测 试 , 在 本 例 中 表现 为 使 用 基础 
矩阵 来 排除 不 符合 极 线 约束 的 匹配 项 。 这 个 测试 基于 RANSAC 算法 ， 即 使 匹配 项 中 有 异常 数据 ， 
该 算法 仍然 可 以 计算 基础 矩阵 (下 一 节 将 会 解释 这 个 方法 ): 

使 用 RobustMatcher 类 可 以 很 方便 地 对 两 幅 图 像 进行 鲁 棱 匹配 ， 代 码 如 下 所 示 : 


// 准备 匹配 器 (用 默认 参数 ) 
// SIFT 检测 器 和 描述 子 
RobustMatcher rmatcher(cv::xfeatures2d: :SIFT: :create(250)); 














// 匹配 两 幅 图 像 


std: :vector<cv: :DMatch> matches; 


std: :vector<cv: :KeyPoint> keypointsl, keypoints2; 
cv::Mat fundamental = rmatcher.match(imagel, image2, 
matches, 
keypointsl, keypoints2); 


结果 得 到 54 个 匹配 项 ， 如 下 图 所 示 。 














轿 寺 Matches 一 x 








通常 情况 下 ,得 到 的 匹配 项 都 很 合理 。 不 过 也 会 有 意外 情况 发 生 ， 比 如 基础 矩阵 对 应 的 对 极 
线 上 有 时 会 出 现 一 些 错误 的 匹配 项 。 
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10.3.2 ”实现 原理 


上 一 节 说 过 , 可 以 根据 一 些 特征 点 匹配 项 计算 图 像 对 的 基础 矩阵 。 为 了 确保 结果 准确 ,采用 
的 匹配 项 必须 都 是 优质 的 。 但 是 在 实际 情况 中 , 通过 比较 被 检测 特征 点 的 描述 子 得 到 的 匹配 项 是 
无 法 保证 全 部 准确 的 。 正 因为 如 此 ， 人 们 引入 了 基于 RANSAC ( RANdom SAmpling Consensus ) 
策略 的 基础 矩阵 计算 方法 。 


RANSAC 算法 旨 在 根据 一 个 可 能 包含 大 量 局 外 项 的 数据 集 ， 佑 算 一 个 特定 的 数学 实体 。 其 
原理 是 从 数据 集中 随机 选取 一 些 数据 点 , 并 仅 用 这 些 数 据点 进行 估算 。 选 取 的 数据 点 数量 ,应 该 
是 估算 数学 实体 所 需 的 最 小 数量 。 对 于 基础 矩阵 ， 最 小 数量 是 8 个 匹配 对 ( 实际 上 只 需要 7 个 ， 
但 是 8 个 点 的 线性 算法 速度 较 快 ) 用 这 8 个 随机 匹配 对 估算 基础 矩阵 后 ， 对 剩 下 的 全 部 匹配 项 
进行 测试 ,验证 其 是 否 满足 根据 这 个 矩阵 得 到 的 极 线 约束 。 标 识 出 所 有 满足 极 线 约 束 的 匹配 项 ( 即 
特征 点 与 对 极 线 距离 很 近 的 匹配 项 )， 这 些 匹 配 项 就 组 成 了 基础 矩阵 的 支撑 集 。 


RANSAC 算法 背后 的 核心 思想 是 : 支撑 集 越 大 ， 所 计算 和 矩阵 正确 的 可 能 性 就 越 大 。 反 之 ， 
如 果 一 个 〈 或 多 个 ) 随机 选取 的 匹配 项 是 错误 的 ,那么 计算 得 到 的 基础 矩阵 也 是 错误 的 ， 并 且 它 
的 支撑 集 肯定 会 很 小 。 反 复 执 行 这 个 过 程 ， 最 后 留 下 文 撑 集 最 大 的 矩阵 作为 最 佳 结 果 。 


因此 我 们 的 任务 就 是 随机 选取 8 个 匹配 项 , 重复 多 次 , 最 后 得 到 8 个 合适 的 匹配 项 ,得 到 很 
大 的 支撑 集 。 如 果 整 个 数据 集中 错误 匹配 项 的 比例 不 同 , 那么 选取 到 8 个 正确 匹配 项 的 可 能 性 也 
各 不 相同 ,但 是 我 们 知道 , 选取 的 次 数 越 多 , 在 这 些 选项 中 人 至少 有 一 组 优质 匹配 的 可 能 性 就 越 大 。 
更 准确 地 说 ,假设 匹配 项 中 局 内 项 ( 优质 匹配 项 ) 的 比例 是 ws， 那么 选取 8 个 优质 匹配 项 的 概 
率 就 是 w。 因此 , 在 一 次 选取 中 至 少 包含 一 个 错误 匹配 项 的 概率 是 (1-w ) 。 如果 选 取 的 次 数 是 k， 
那么 只 选取 到 优质 匹配 项 的 概率 是 1- (1-w ) 。 


这 就 是 置信 概率 , 标 为 c。 要 得 到 正确 的 基础 矩阵 ,就 需要 至 少 一 个 优质 匹配 集 ， 因 此 这 个 概 
率 越 大 越 好 。 所 以 在 运行 RANSAC 算法 时 , 我 们 需要 确定 得 到 特定 可 信和 度 等 级 所 需 的 选取 次 数 k。 


在 RANSAC 算 法 中 ， 用 RobustMatcher 类 的 ransacTest 方法 估算 基础 矩阵 : 


// 用 RANSAC 算法 获取 优质 匹配 项 

// 返回 基础 矩阵 和 匹配 项 

cV: :Mat ransacTest (const std::vector<cv::DMatch>& matches, 
std::vector<cv: :KeyPoint>& keypoints1， 
std::vector<cv: :KeyPoint>& keypoints2, 
std: :vector<cv: :DMatch>& outMatches) { 












































































































































// 将 关键 点 转换 为 Point2f 类 型 

std: :Vector<CcV::Point2f> pointsl, points2; 

for (std::vector<cv::DMatch>::const_iterator it= matches.begin(); 
it!= matches.end(); ++it) { 


// 获取 左 侧 关键 点 的 位 置 
pointsl.push back (keypointsl [it->queryIdx] .pt); 
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/ 获取 右 侧 关 键 点 的 位 置 


points2.push_ back (keypoints2[it->trainIdx] .pt); 


} 
// 


StQ 
CV : 


// 


用 RANSAC 计算 F 给 阵 
::Vvector<uchar> inliers (pointsl.size(),0); 


:Mat fundamental= 

cv::findFundamentalMat ( Points1， 
points2, // 匹配 像素 点 
inliers, // 匹配 状态 (inlier 或 outlier) 
CV::FM_RANSAC，,， // RANSAC 算法 
distance, // 到 对 极 线 的 距离 
confidence); // 置信 度 


取出 剩 下 的 (inliers) 匹 配 项 


std: :Vector<uUchar>: :const_iterator itIn= inliers.begin(); 
std: :vector<cv: :DMatch>::const_iterator itM= matches.begin(); 


// 


遍历 所 有 匹配 项 


for ( ;itIn!= inliers.end(); ++itIn, ++itM) { 


} 
} 


iF (*itIn) { // it Lied valid mateh 
outMatches.push back (*itM); 


return fundamental; 


} 


上 述 代 码 有 些 长 ， 因 为 关键 点 必须 在 计算 基础 矩阵 前 转换 为 cv: :Point2f。 在 使 用 含有 


CCV: :PM R. 








ANSAC 标志 的 函数 cv::findFundamentalMat 时 ， 会 提供 两 个 附加 参数 。 第 一 个 参 





数 是 可 信和 度 等 级 , 它 决定 了 执行 迭代 的 次 数 (默认 值 是 0.99 )。 第 二 个 参数 是 点 到 对 极 线 的 最 大 





距离 ,小 于 这 个 距离 的 点 被 视 为 局 内 点 。 如 果 匹 配对 中 有 一 个 点 到 对 极 线 的 距离 超过 这 个 值 , 就 


视 这 个 匹 本 


对 为 局 外 项 。 这 个 函数 返回 字符 值 的 sta: :vector ， 表 示 对 应 的 输入 匹配 项 被 标记 





为 局 外 项 (0 ) 或 局 内 项 (1 )。 因此, 代码 最 后 的 循环 可 以 从 原始 匹配 项 中 提取 出 优质 的 匹配 项 。 








匹配 集中 的 优质 匹配 项 越 多 ，RANSAC 算法 得 到 正确 基础 矩阵 的 概率 就 越 大 。 因 此 我 们 在 
匹配 特征 点 时 使 用 了 交叉 检查 过 滤器 。 你 还 可 以 使 用 上 一 节 介 绍 的 比率 测试 , 进一步 提高 最 终 匹 




















配 集 的 质量 。 这 是 一 个 互相 权衡 的 问题 ， 要 考虑 这 三 点 : 计算 复杂 度 、 最 终 匹 配 项 数量 、 要 得 到 
仅 包 含 准确 匹配 项 的 匹配 集 所 需 的 可 信和 度 等 级 。 





10.3.3 扩展 阅读 
本 节 介 绍 了 和 鲁 棒 匹 配 过 程 , 即 利用 拥有 最 大 支架 的 8 个 被 选 匹配 项 以 及 该 支撑 集 包含 的 匹配 








项 计算 基础 矩阵 ， 然 后 得 到 基础 矩阵 的 估算 值 。 利 用 这 个 信息 ， 有 两 种 方法 可 以 改进 这 些 结果 。 
1. 改进 基础 矩阵 





























现在 已 经 有 了 高 质量 的 匹配 项 , 用 全 部 匹配 项 重新 估算 基础 矩阵 是 个 不 错 的 主意 。 我们 已 经 
注意 到 ， 有 一 种 线性 的 8 点 算法 可 以 估算 这 个 和 矩阵。 因此 可 以 得 到 一 个 超 定 方程 组 , 求 得 最 小 二 
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乘法 形式 的 基础 矩阵 。 可 以 在 ransacTest 函数 的 后 面 添 加 这 个 步骤 ， 





// 把 关键 点 转换 成 Point2f 类 型 

pointsl.clear(); 

points2.clear (); 

for (std::vector<cv::DMatch>::const_iterator it= 
outMatches.begin(); 


it!= outMatches.end(); ++it) { 


// 取得 左 侧 关键 点 的 位 置 
pointsl.push back (keypointsl [it->queryIdx] .pt); 


// 取得 右 侧 关 键 点 的 位 置 
points2.push _ back (keypoints2[it->trainIdx] .pt); 


} 


// 根据 全 部 认可 的 匹配 项 ， 计 算 8 个 点 的 基础 矩阵 
fundamental= cv::findFundamentalMat ( 
points1,points2， // 匹配 点 
cvV: :FM 8POINT); ”// 8 个 点 的 方法 ， 用 奇异 值 分 解 (SVD) 求解 


实际 上 , 通过 奇异 值 分 解 求解 线性 方程 组 ，cv: :finqFundqamentalMat 函数 确实 可 以 接受 
8 个 以 上 的 匹配 项 。 


2. 改进 匹配 项 

在 双 视 图 系统 中 , 每 个 点 肯定 位 于 与 它 对 应 的 点 的 对 极 线 上 。 这 就 是 基础 矩阵 表示 的 极 线 约 
束 。 因 此 ， 如 果 已 经 有 了 很 准确 的 基础 矩阵 ， 就 可 以 利用 极 线 约 束 来 更 正 得 到 的 匹配 项 ， 有 具体 做 
法 是 将 强制 匹配 项 置 于 它们 的 对 极 线 上 。 使 用 OpenCV 也 数 cv: :correctMatches 可 以 很 方便 
地 实现 这 个 功能 























std: :vector<cv: :Point2f> newPointsl1, newPoints2; 


// 改进 匹配 项 

correctMatches (fundamental, // 基础 矩阵 
pointsil, points2, // 原始 位 置 
newPointsl,，newPoints2); // 新 位 置 


这 个 函数 修改 每 个 对 应 点 的 位 置 ， 从 而 在 最 小 化 累积 (平方 ) 位 移 时 能 满足 极 线 约束 。 


10.4 计算 两 幅 图 像 之 间 的 单 应 矩阵 


10.2 节 介 绍 了 用 匹配 项 计算 图 像 对 的 基础 矩阵 的 方法 。 在 投影 几何 学 中 , 还 有 一 种 非常 实用 
的 数学 实体 。 这 个 实体 可 以 用 多 视图 影像 计算 ， 是 一 个 具有 特殊 性 质 的 矩阵 。 





























10.4.1 准备 工作 


， 它 在 相机 中 的 影像 之 间 的 投影 关系 ，10.1 节 曾 介绍 过 这 一 内 容 。 我 们 知 
个 公式 的 本 质 是 利用 相机 内 部 参数 和 相机 的 位 置 (用 旋转 分 量 和 平移 分 量 表示 )， 建 立 三 维 
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点 和 它 的 影像 之 间 的 关联 关系 。 仔 细 研 究 这 个 公式 ， 会 发 现 有 两 种 特殊 情况 需要 我 们 注意 。 第 一 
种 情况 是 同一 场景 中 两 个 视图 之 间 的 差别 只 有 纯 旋转 。 这 时 外 部 矩阵 的 第 四 列 全 部 变 为 0 ( 即 没 
有 平移 量 ): 


0 1 





-Nm 











在 这 种 特殊 情况 下 ， 投 影 关系 就 变 为 了 3x3 的 矩阵 。 如 果 拍 摄 目 标 是 一 个 平面 ， 也 会 出 现 
类 似 的 有 趣 现象 。 这 时 ， 可 以 假设 仍 能 保持 通用 性 ， 即 平面 上 的 点 都 位 于 z=0 的 位 置 。 最 终 得 
到 下 面 的 公式 : 























Xx 

x f 0 0lNrl r2 r3 4 
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场景 点 中 值 为 0 的 坐标 会 消除 掉 投 影 矩 阵 的 第 三 列 ， 从 而 又 变 成 一 个 3x3 的 矩阵 。 这 种 特殊 
和 矩阵 称 为 单 应 矩阵 (homography )， 表示 在 特殊 情况 下 ( 这 里 指 纯 旋转 或 平面 目标 )， 世界 坐标 系 
的 点 和 它 的 影像 之 间 是 线性 关系 。 此 外 , 由 于 该 矩阵 是 可 逆 的 , 所 以 只 要 两 个 视图 只 是 经 过 了 旋 
转 , 或 者 拍摄 的 是 平面 物体 , 那么 就 可 以 将 一 个 视图 中 的 像素 点 与 男 一 个 视图 中 对 应 的 像素 点 直 
接 关 联 起 来 。 单 应 矩阵 的 格式 为 : 





















































其 中 五 是 一 个 3x3 和 矩阵。 这 个 关系 式 包 含 了 一 个 太 度 因子 , 用 s 表示 。 计算 得 到 这 个 矩阵 后 ， 
一 个 视图 中 的 所 有 点 都 可 以 根据 这 个 关系 式 转换 到 男 一 个 视图 。 本 节 和 下 一 节 都 会 使 用 这 个 特 
性 。 需 要 注意 的 是 ， 在 使 用 单 应 矩阵 关系 式 后 ， 基 础 矩阵 就 没有 意义 了 。 






































10.4.2 ”如 何 实现 


假设 有 两 幅 图 像 ， 唯 一 的 差别 只 有 纯 旋转 。 如 果 你 自己 一 边 转圈 一 边 对 建筑 物 或 风景 拍照 ， 
就 会 出 现 这 种 情况 。 只 要 拍摄 者 与 目标 的 距离 足够 远 ,平移 量 就 可 以 忽略 不 计 。 可 以 选取 特征 点 ， 
使 用 cv: :BFMatcher 子 数 匹配 这 两 幅 图 像 ， 结 果 如 下 所 示 。 
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届 Matches (pure rotation case) 一 x 











跟 上 一 节 一 样 ， 接 下 来 对 此 应 用 RANSAC 算法 ， 这 次 包含 基于 匹配 集 ( 显然 有 大 量 的 局 外 项 ) 
估算 单 应 矩阵 的 步骤。 该 步骤 通过 cv: : fingHomography 函数 实现 ,和 cv: :findqFunqamentalMat 
函数 很 相似 : 

// 找到 第 一 幅 图 像 和 第 二 幅 图 像 之 间 的 单 应 和 矩阵 


std::vector<char> inliers; 
cv::Mat homography= cv::findHomography ( 








points1, 

points2, // 对 应 的 点 

inliers, // 输出 的 局 内 匹配 项 

cvV: :RANSAC，// RANSAC 方法 

工 记 站 // 到 重复 投影 点 的 最 大 距离 


这 里 有 单 应 矩阵 ( 而 不 是 基础 矩阵 ) 是 因为 两 幅 图 像 的 差距 为 纯 旋 转 量 。 下 面 展 示 了 如 何 用 
inliers 参数 识别 出 的 局 内 关键 点 。 

















刷 3 Homography inlier points 法 义 








单 应 矩阵 是 一 个 3x3 的 可 道 矩阵 。 因 此 在 计算 单 应 矩阵 后 ,就 可 以 把 一 幅 图 像 的 点 转移 到 另 
一 幅 图 像 上 。 实际 上 , 图 像 中 的 每 个 像素 都 可 以 转移 ， 因 此 可 以 把 整 幅 图 像 迁 移 到 男 一 幅 图 像 的 
的 视点 上 。 这 个 过 程 称 为 图 像 拼接 ， 常 用 于 将 多 幅 图 像 构 建成 一 幅 大 型 全 景 图 。OpenCV 中 有 一 
个 函数 能 实现 这 个 功能 ， 用 法 如 下 所 示 : 
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// 将 第 一 幅 图 像 捏 曲 到 第 二 幅 图 像 

cv::Mat result; 

Cv: :warpPerspective (imagel, // 输入 图 像 
result, // 输出 图 像 
homography， // 单 应 和 矩阵 
cv::Size(2*imagel.cols,imagel .rows)); 


// 输出 图 像 的 尺寸 























得 到 新 图 像 后 ， 可 以 把 它 附 加 到 男 一 幅 图 像 上 以 扩展 视角 ( 因为 现在 两 幅 图 像 的 视角 是 相 
同 的 ): 
// 把 第 一 幅 图 像 复制 到 完整 图 像 的 第 一 个 半边 


cv::Mat half (result,cv::Rect(0,0,image2.cols,image2 .rows)); 
image2 .copyTo (half); // 把 image2 复制 到 imagel 的 ROI 区 域 


结果 如 下 图 所 示 。 














压 和 Image mosaic 3 XxX 

















10.4.3 ”实现 原理 


如 果 两 个 视图 通过 单 应 矩阵 互相 关联 , 就 可 以 检测 一 幅 图 像 中 特定 的 场景 点 在 另 一 幅 图 像 中 we 
的 位 置 了 .如 果 一 幅 图 像 中 的 点 对 应 到 另 一 幅 图 像 后 超出 了 边界 范围 ,这 种 性 质 就 显得 尤其 有 趣 。 
实际 上 ,由 于 第 二 个 视图 中 的 一 部 分 场景 在 第 一 个 视图 中 是 不 可 见 的 ,因此 可 以 用 单 应 矩阵 通过 
读 取 另 一 幅 图 像 中 额外 的 像素 点 的 颜色 值 来 扩展 图 像 . 这样 我 们 就 能 通过 扩充 第 二 幅 图 像 得 到 新 
的 图 像 ， 此 时 新 图 像 的 右 侧 会 添加 额外 的 列 。 


用 函数 cv: :findHomography 计算 得 到 的 单 应 矩阵 把 第 一 幅 图 像 的 点 映射 到 第 二 幅 图 像 的 
点 。 计 算 单 应 矩阵 时 至 少 需要 四 个 匹配 项 ， 并 且 它 也 使 用 了 RANSAC 算法 。 在 找到 具有 最 佳 支 
撑 集 的 单 应 矩阵 后 ，cv: : findHomography 方法 就 会 用 所 有 识别 到 的 局 内 项 对 它 进 行 优化 。 


现在 要 把 第 一 幅 图 像 的 点 迁移 到 第 二 幅 图 像 , 需要 做 的 其 实 就 是 反 转 单 应 和 矩阵。 这 正 是 函数 
cv: :warpPerspective 的 默认 算法 , 即 利 用 输入 的 反 转 单 应 矩阵 取得 输出 图 像 中 每 个 像素 的 颜 
色 值 (这 就 是 第 2 章 中 的 反 向 映射 )。 如 果 迁 移 的 输出 像素 超出 了 输入 图 像 的 范围 ， 就 把 这 个 像 
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素 设置 为 黑色 ( 0 )。 如 果 要 在 转移 像素 的 过 程 中 直接 使 用 单 应 矩阵 ， 而 不 是 反 转 矩阵 ， 就 可 以 在 


函数 cv: :warpPerspective 的 第 五 个 可 选 参数 中 指定 cv: :WARP_INVERSE_MAP 标志 。 








10.4.4 扩展 阅读 
OpenCyVy 中 的 contrip 包 提 供 了 完整 的 图 像 拼接 方法 ,可 以 用 多 幅 图 像 生成 高 质量 的 全 景 图 。 
用 cv: :Stitcher 生成 全 景 图 


用 本 闻 方 法 获得 的 马赛 克 图 效果 还 可 以 , 但 仍 有 一 些 问 题 一 一 图 像 并 没有 很 好 地 对 齐 , 而 且 
因为 图 像 的 亮度 和 对 比 度 不 同 , 图 像 之 间 也 能 看 到 明显 的 空隙 。 好 在 OpenCV 有 了 拼接 解决 方案 ， 
针对 这 些 问 题 ， 能 尽 可 能 生成 质量 最 佳 的 全 景 图 。 虽 然 这 种 解决 方案 又 复杂 又 繁琐 , 但 它 的 基本 
原理 就 是 本 节 介 绍 的 概念 ， 即 在 图 像 中 匹配 特征 点 ,并 精确 地 估算 出 单 应 矩阵。 此 外 ， 这 个 解决 
方案 还 会 估算 相机 的 内 部 和 外 部 参数 , 以 便 图 像 能 更 好 地 对 齐 。 它 还 可 以 修正 曝光 条 件 上 的 差距 ， 
提高 图 像 的 拼合 质量 。 以 下 代码 是 在 外 层 调 用 这 个 函数 : 

// 读 取 输入 的 图 像 

std: :vector<cv: :Mat> images; 


images.push_ back(cv::imread("parliament1.jpg")); 
images.push_ back(cv::imread("parliament2.jpg")); 











cv::Mat panorama; // 输出 的 全 景 图 
// 创建 拼接 器 

cv::Stitcher stitcher = cv::Stitcher::createDefault (); 
// 拼接 图 像 


cv::Stitcher::Status status = stitcher.stitch(images, panorama); 


这 个 实例 的 很 多 参数 都 可 以 调节 ,以便 得 到 理想 的 结果 。 感 兴趣 的 读者 可 以 深入 研究 这 个 程 
序 包 ， 了 解 更 多 的 信息 。 上 述 代码 得 到 的 结果 如 下 图 所 示 。 














届 也 Panorama 





很 明显 ,任意 数量 的 图 像 都 可 以 拼接 成 一 个 大 全 景 图 。 
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10.4.5 “参阅 


口 2.8 节 讨论 了 反 向 映射 的 概念 。 

口 M. Brown 和 了 D. Lowe 于 2007 年 发 表 在 International Journal of Computer Vision 1 月 第 74 
期 的 “Automatic panoramic image stitching using invariant features” 描 述 了 用 多 幅 图 像 构建 
全 景 图 的 完整 方法 。 





10.5 ”检测 图 像 中 的 平面 目标 
上 上 一 节 介 绍 了 如 何 利 用 单 应 矩阵 将 因 纯 旋转 而 分 割 的 图 片 拼接 起 来 , 组 成 一 个 全 景 图 。 一 个 


平面 上 的 多 幅 图 像 也 可 以 生成 视角 之 间 的 单 应 矩阵 。 本 节 将 介绍 如 何 利用 这 个 特点 , 识别 出 图 像 
中 的 平面 目标 。 


10.5.1 ”如何 实现 

假定 我 们 需要 检测 图 像 中 的 平面 物体 。 这 个 物体 可 能 是 一 张 海 报 、 一 幅 画 、 一 个 徽标 、 一 个 
标牌 ,等 等 。 利用 本 童 所 学 , 我们 采取 的 方法 是 检测 这 个 平面 物体 的 特征 点 ,然后 试 着 在 图 像 中 
匹配 这 些 特征 点 。 然后 和 前 面 一 样 , 用 和 鲁 棒 匹配 方案 来 验证 这 些 匹配 项 , 但 这 次 要 基于 单 应 矩阵 。 
如 果 有 效 匹配 项 的 数量 很 多 ， 就 说 明 该 平面 目标 在 当前 图 像 中 。 


本 节 的 目标 是 在 图 像 中 检测 出 本 书 的 第 1 版 ,具体 图 像 如 下 所 示 。 























定义 一 个 TargetMatcher 类 ， 它 与 RobustMatcher 非常 相似 : 


class TargetMatcher { 
private: 
// 特征 点 检测 器 对 象 的 指针 


Cv: :Ptr<cv: :FEeatureDetector> detector; 
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// 特征 描述 子 提取 器 对 象 的 指针 


CVv::Ptr<cv::DescriptorExtractor> descriptor; 





cv::Mat target; // 目标 图 像 
int normType; // 比较 描述 子 容器 
double distance; // 最 小 重 投 影 误差 


int numberOfLevels; // 金字 塔 形 图 像 的 数量 
double scaleFactor; // 层级 之 间 的 范围 
// 目标 图 像 构建 的 金字 塔 以 及 它 的 关键 点 
std: :vector<cv: :Mat> pyramid; 
std: :vector<std: :vector<cv: :KeyPoint>> pyrKeypoints; 
std: :vector<cv: :Mat> pyrDescriptors; 


需 匹 配 的 平面 物体 的 参考 图 像 用 target 属性 表示 ,将 target 图 像 依 次 进行 压缩 像素 采样 ， 
得 到 一 系列 类 似 金 字 塔 的 图 像 ， 从 这 些 图 像 中 就 可 以 检测 到 特征 点 ,下 一 节 将 详细 人 解释。 这些 匹 
配方 法 与 RobustMatcher 类 中 的 方法 非常 类 似 ， 区 别 在 于 它们 在 ransacTest 方法 中 包含 了 


cv: :findHomography， 而 不 是 cv: :findFundamentalMat。 


在 使 用 TargetMatcher 类 时 , 必须 实例 化 一 个 专用 的 特征 点 检测 器 和 描述 子 作 为 构造 函数 
的 参数 : 


// 初始 化 匹配 器 
TargetMatcher tmatcher (cv::FastFeatureDetector: :create(10) ， 


Cv: :BRISK: :create()); 
tmatcher.setNormType (cv: :NORM HAMMING); 


这 里 选用 FAST 检测 器 和 BRISK 描述 子 的 组 合 ， 因 为 它们 的 运算 速度 较 快 。 接 着 ， 指 定 需 
检测 的 目标 : 


// 设 定 目标 图 像 
tmatcher.setTarget (target); 


下 图 为 这 里 采用 的 图 像 。 















































一 


可 调用 detectTarget 方法 检测 该 目 标 : 


// 匹配 目标 图 像 


tmatcher.detectTarget (image, corners); 
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了 这 





它 ; 
检测 结 及 


> 


// 画 出 目标 的 角 点 
if (corners.size() == 4) { // 已 获得 检测 结果 


cv::line(image, cv::Point (corners [0])， 
Cv::Point (corners{[1]), 
CYCalarl2d 2 20 3 

cv::line(image, cv::Point (corners[1]), 
Cv::Point (corners{[2]), 
CV Scalart(l253, 255, "200)0 .Bs 

cv::line(image, cv::Point (corners[2]), 
cv::Point (corners[3]), 
Cy OCalarl2b 0 2500 “2600 3)s 
cv::line(image, cv::Point (corners[3]), 
cv::Point (corners[0]), 
Cy Ca la Oo LOD) Ss 





























结果 如 下 所 示 。 


回 图 像 中 目标 的 四 个 角 点 的 坐标 〈 在 成 功 找到 目标 的 情况 下 )。 然 后 画 上 线条 ， 以 验证 





夯 让 Target detection 

















10.5.2 ”实现 原理 


因为 不 知道 图 像 中 目标 物体 的 大 小 , 所 以 我 们 把 目标 图 像 转 换 成 一 系列 不 同 的 尺寸 , 构建 成 





一 个 金字 塔 。 除了 这 种 方法 ,也 可 以 采用 尺度 不 变 特征 。 


例 ( 属性 scaleFactor， 默 认为 0.9) 0 金字 





默认 为 8。 对 金字 塔 的 每 一 层 都 检测 特征 点 : 


// 设置 目标 图 像 


void setTarget (const cv::Mat 七 ) { 





target= 七 
createPpyramid(); 


} 





字 塔 的 层 数 是 





金字 塔 中 ,目标 图 像 的 尺寸 按 特 定 比 


属性 numberofLevels 的 值 ， 
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// 创建 目标 图 像 的 金字 塔 


void createPyramid() { 


// 创建 目标 图 像 的 金字 塔 
pyramid.clear(); 
cv::Mat layer (target); 
ft (nt 0 
i < numberOfLevels; i++) { // 逐 层 缩小 
pyramid.push back (target.clone()); 
resize(target, target, cv::Size(), scaleFactor, scaleFactor); 


} 





pyrKeypoints.clear(); 
pyrDescriptors.clear (); 
// 逐 层 检测 关键 点 和 描述 子 
for (int i = 0; i < numberOfLevels; I++) { 
// 在 第 i 层 检测 目标 关键 点 
pyrKeypoints.push back (std::vector<cv: :KeyPoint>()); 
detector->detect (pyramid[i], pyrKeypoints[i]); 
// 在 第 i 层 计 算 描述 子 
pyrDescriptors.push back(cv::Mat ()); 
descriptor->compute (pyramidl[i], 
pyrKeypoints[il], 
pyrDescriptors[i]); 


} 


detectTarget 接 下 来 要 执行 三 个 步骤。 第 一 步 ,在 输入 图 像 中 检测 兴趣 点 。 第 二 步 ， 将 该 
图 像 与 目标 金字 塔 中 的 每 幅 图 像 进 行 鲁 棒 匹配 ， 并 把 优质 匹配 项 最 多 的 那 一 层 保留 下 来 ; 如 果 这 一 























层 的 匹配 项 足够 多 ,就 可 认为 已 经 找到 目标 ,第 三 步 ,使 用 得 到 的 单 应 矩阵 和 cv 
Transform 了 消 数 ， 把 目标 中 的 四 个 角 点 重新 投影 到 输入 图 像 中 。 


// 检测 预先 定义 的 平面 目标 

// 返回 单 应 矩阵 和 检测 到 的 目标 的 4 个 角 点 

cV::Mat detectTarget( 
const cv: :Mat& :image，// 目标 角 点 ( 顺 时 针 方 向 ) 的 坐标 
std: :vector<cv: :Point2f>& detectedCorners) { 








// 1. 检 测 图 像 的 关键 点 

std: :vector<cv: :KeyPoint> keypoints; 
detector->detect (image, keypoints); 

// 计算 描述 子 

cv::Mat descriptors; 

descriptor->compute(image, keypoints, descriptors); 





std: :vector<cv: :DMatch> matches; 
cv::Mat bestHomography; 

cv::Size bestSize; 

int maxInliers = 0; 

cv::Mat homography; 


// 构建 匹配 器 


: :getPerspective 
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cv::BFMatcher matcher (normType); 


// 2. 对 金字 塔 的 每 层 ， 香 棒 匹 配 单 应 和 矩阵 
for (int i = 0; i < numberOfLevels; i++) { 
// 在 目标 和 图 像 之 间 发 现 RANSAC 单 应 矩阵 
matches.clear (); 
// 匹配 描述 子 
matcher.match(pyrDescriptors[i], descriptors, matches); 
// 用 RANSAC 验证 匹配 项 
std: :vector<cv: :DMatch> inliers; 
homography = ransacTest (matches, pyrKeypoints{[il], 
keypoints, inliers); 





if (inliers.size() > maxInliers) { // 有 更 好 的 也 
maxInliers = inliers.size(); 
bestHomography = homography; 
bestSize = pyramidl[i].size(); 


} 


// 3. 用 最 佳 单 应 矩阵 找 出 角 点 坐标 
if (maxInliers > 8) { // 估算 值 有 效 


// 最 佳 尺 十 的 目标 角 点 

std: :Vector<cV::Point2f> corners; 

corners.push back(cv::Point2f (0, 0)); 

corners.push back(cv::Point2f (bestSize.width - 1, 0)); 
corners.push back(cv::Point2f (bestSize.width - 1, 
bestSize.height - 1)); 
corners.push back(cv::Point2f (0, bestSize.height - 1)); 


// 重新 投影 目标 角 点 
Cv::perspectiveTransform(corners, detectedCorners, bestHomography); 








return bestHomography; 


} 
匹配 结果 如 下 所 示 。 
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10.5.3 “参阅 





口 H. Bazargani、O. Bilaniuk 和 R. Laganiére 于 2015 年 发 表 在 Journal of Real-Time Image Processing 
5 月刊 上 的 论文 “The Fast and robust homography scheme forreal-time planar target detection” 
介绍 了 一 种 实时 检测 平面 目标 的 方法 ， 还 描述 了 cv: : findHomography 函数 的 cv: :RHO 
方法 。 


三 维 重建 








本 章 包 括 以 下 内 容 : 


口 相机 标定 ; 

口 相机 姿态 还 原 ; 

口 用 标定 相机 实现 三 维 重建 ; 
口 计算 立体 图 像 的 深度 。 








11.1 简介 


上 一 章 介绍 了 用 相机 捕获 三 维 场景 的 过 程 ， 即 将 光线 投射 到 二 维 的 感应 平面 上 。 这 样 得 到 的 
照片 可 以 精确 地 反映 当时 从 相机 所 在 视角 观察 到 的 场景 , 但 是 这 种 成 像 过 程 丢 失 了 场景 中 与 物体 
深度 相关 的 所 有 信息 。 本 章 将 介绍 如 何在 特定 条 件 下 ， 重 建 场景 的 三 维 结构 和 相机 的 三 维 姿态 。 
想 要 设计 三 维 重 建 的 方法 ,就 必须 充分 理解 投影 过 程 的 几何 原理 , 这 一 点 非常 重要 。 因 此 , 我 们 
要 重 温 一 下 上 一 章 介绍 过 的 成 像 原理 。 一 定 要 记 住 : 图 像 是 由 像素 组 成 的 。 























数字 图 像 的 成 像 过 程 


这 里 对 第 10 章 的 针 孔 相 机 模型 图 做 些 改动 ， 从 而 说 明 三 维 空间 的 点 (了 马刀 与 它 在 图 像 上 对 
应 的 点 Ce y) 之 间 的 关系 ， 其 中 后 者 是 用 像素 坐标 表示 的 。 | 











220 第 11 章 三 维 重建 





注意 它 与 原 图 之 间 的 差别 。 首 先 , 我 们 在 投影 线 的 中 间 加 了 一 个 参考 平面 。 其 次 ,因为 图 像 
的 坐标 原点 通常 在 左上 角 , 所 以 为 了 与 它 兼容 , 我 们 把 了 轴 改 成 向 下 。 最 后 ,在 成 像 平面 中 指定 
一 个 特殊 的 点 ， 即 从 焦点 位 置 引 出 一 条 与 成 像 平 面 垂直 的 直线 ， 与 成 像 平 面 的 交点 为 io vo)。 这 
个 点 称 为 主 点 。 理 t 他 上 可 以 认为 这 个 主 点 就 是 成 像 平面 的 中 心 点 ， 但 实际 上 它 可 能 偏离 几 个 像素 
的 距离 ， 具 体 取决 于 相机 的 精确 度 。 


上 一 章 提 过 , 针 孔 相机 最 关键 的 参数 是 焦距 和 成 像 平面 大 小 ( 它 决定 了 相机 的 视野 )。 此 外 ， 
对 于 数字 图 像 来 说 ,成 像 平面 上 像素 的 数量 ( 即 分 辨 率 ) 也 是 相机 的 重要 参数 。 前 面 还 提 过 ， 三 
维 空间 的 点 (X, 了, 妃 会 投射 到 成 像 平面 上 的 X12, /7D)。 


如 果 想 把 这 个 坐标 转换 成 以 像素 为 单位 , 需要 将 二 维 图 像 上 的 坐标 分 别 除 以 像素 的 宽度 ( px ) 
和 高 度 ( py )。 将 焦距 的 长 度 值 (通常 以 毫米 为 单位 ) 除 以 px， 结 果 为 焦距 ( 水 平方 向 ) 的 像素 
数 ， 这 个 值 定义 为 太 。 同 样 ，fy=fpy 是 焦距 在 垂直 方向 的 像素 数 。 完 整 的 投影 公式 为 : 



















































































前 面 说 过 ，(wo, vo) 是 主 点 ， 加 上 它 是 因为 要 把 图 像 的 左上 角 作 为 坐标 原点 。 此 外 ， 可 以 用 图 
像 传感器 的 大 小 〈 单 位 一 般 为 毫米 ) 除 以 像素 数量 ( 水 平 或 垂直 方向 )， 得 到 像素 的 实际 大 小 。 
现代 图 像 传感器 的 像素 通常 是 正方 形 的 ， 即 水 平和 垂直 方向 的 大 小 相等 。 


第 10 章 介绍 过 ， 上 面 的 公式 也 可 以 用 和 矩阵 表示 。 下 面 是 完整 投影 公式 最 通用 的 表示 方式 : 
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相机 标定 就 是 设置 相机 各 种 参数 ( 即 投影 公式 中 的 项 目 ) 的 过 程 。 当 然 也 可 以 使 用 相机 厂家 
提供 的 技术 参数 , 但 是 对 于 某 些 任务 ( 例如 三 维 重建 ) 来 说 ， 这 些 技术 参数 是 不 够 精确 的 。 利 用 
正确 的 相机 标定 方法 ， 即 可 得 到 精确 的 标定 信息 。 


真正 有 效 的 相机 标定 过 程 , 就 是 用 相机 拍摄 特定 的 图 案 并 分 析 得 到 的 图 像 , 然后 在 优化 过 程 
中 确定 最 佳 的 参数 值 。 这 是 一 个 复杂 的 过 程 ， 但 OpenCV 的 标定 函数 已 经 让 它 变 得 很 容易 。 
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11.2.1 如何 实现 


相机 标定 的 基本 原理 是 , 确定 场景 中 一 系列 点 的 三 维 坐 标 并 拍摄 这 个 场景 , 然后 观测 这 些 点 
在 图 像 上 投影 的 位 置 。 有 了 足够 多 的 三 维 点 和 图 像 上 对 应 的 二 维 点 , 就 可 以 根据 投影 方程 推断 出 
准确 的 相机 参数 。 显 然 , 为 了 得 到 精确 的 结果 ， 就 要 观测 尽 可 能 多 的 点 。 一 种 方法 是 对 一 个 包含 
大 量 三 维 点 的 场景 取 像 。 但 是 在 实际 操作 中 ,这 种 做 法 几乎 是 不 可 行 的 。 更 实用 的 做 法 是 从 不 同 
的 视角 为 一 些 三 维 点 拍摄 多 个 照片 。 这 种 方法 相对 比较 简单 , 但 是 它 除了 需要 计算 相机 本 身 的 参 
数 ， 还 需要 计算 每 个 相机 视图 的 位 置 ， 所 幸 这 不 难 实现 。 

OpenCyV 推荐 使 用 国际 象棋 棋盘 的 图 案 生 成 用 于 标定 的 三 维 场景 点 的 集合 。 这 个 图 案 在 每 个 
方块 的 角 点 位 置 创建 场景 点 ; 由 于 图 案 是 平面 的 , 可 以 假设 棋盘 位 于 Z=0 且 XY 和 了 的 坐标 轴 与 网 
格 对 齐 的 位 置 。 

这 样 , 标定 时 就 只 需 从 不 同 的 视角 拍摄 棋盘 图 案 。 下 面 是 一 个 在 标定 过 程 中 拍摄 的 图 案 , 包 
含 7x5 个 内 部 角 点 。 









































可 以 用 OpenCV 自 带 的 函数 自动 检测 棋盘 图 案 中 的 角 点 , 用 起 来 非常 方便 。 你 只 需要 提供 一 | 
幅 图 像 和 棋盘 太 寸 (水 平和 垂直 方向 内 部 角 点 的 数量 )， 函 数 就 会 返回 图 像 中 所 有 棋盘 角 点 的 位 
置 。 如 果 无 法 找到 图 案 ， 函 数 返回 false: 


// 输出 图 像 角 点 的 向 量 

std: :vector<cv::Point2f> imageCorners; 

// 棋盘 内 部 角 点 的 数量 

Cv::Size boardSize(7,5); 

// 获得 棋盘 角 点 

bool found = cv::findChessboardCorners\( 
image， // 包含 棋盘 图 案 的 图 像 
boardSize, // 图 案 的 尺寸 
imageCorners); // 检测 到 的 角 点 列表 
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输出 参数 imagecorners 将 存储 检测 到 的 内 部 角 点 的 像素 坐标 。 注 意 ， 这 个 函数 还 可 以 使 
用 其 他 参数 来 调节 算法 ,这 里 不 做 讨论 。 此 外 还 有 一 个 特别 的 函数 , 它 能 画 出 棋盘 图 像 上 检测 到 
的 角 点 ， 并 用 线条 依次 连接 起 来 : 

// 画 出 角 点 


Cv: :drawChessboardCorners (image, boardSize, 
imageCorners，found); // 找到 的 角 点 


得 到 如 下 图 像 。 














转 a Detected points 











连接 角 点 的 线条 的 次 序 ， 就 是 角 点 在 向 量 中 存储 的 次 序 。 在 进行 标定 前 ， 需 要 指定 相关 的 三 
维 点 。 指 定 这 些 点 时 可 自由 选择 单位 〈 例 如 厘米 或 英寸 )， 不 过 最 简单 的 办 法 是 将 方块 的 边 长 指 
定 为 一 个 单位 。 这 样 第 一 个 点 的 坐标 就 是 (0, 0, 0) (假设 棋盘 的 纵深 坐标 为 Z= 0 )， 第 二 个 点 的 坐 
标 是 (1, 0, 0)， 最 后 一 个 点 的 坐标 是 (6, 4, 0)。 这 个 图 案 共有 35 个 点 ; 若 要 进行 精确 的 标定 ， 这 些 
点 是 远 远 不 够 的 。 为 了 得 到 更 多 的 点 ， 需 要 从 不 同 的 视角 对 同一 个 标定 图 案 拍 摄 更 多 的 照片 。 可 
以 在 相机 前 移动 图 案 , 也 可 以 在 棋盘 周围 移动 相机 。 从 数学 的 角度 看 , 这 两 种 方法 是 完全 等 效 的 。 
OpenCy 的 标定 函数 假定 由 标定 图 案 确定 坐标 系 ， 并 计算 相机 相对 于 坐标 系 的 旋转 量 和 平移 量 。 


我 们 把 标定 过 程 封 装 在 cameracalibrator 类 中 。 类 的 属性 有 : 




















class CameraCalibrator { 


// 输入 点 : 

// 世界 坐标 系 中 的 点 

// (每 个 正方 形 为 一 个 单位 ) 

std: :vector<std: :Vector<cV: :Point3f>> objectPoints; 
// 点 在 图 像 中 的 位 置 (以 像素 为 单位 ) 

std: :vector<std: :vector<cv::Point2f>> imagePoints; 


// 输出 给 阵 
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cV: :Mat cameraMatrix; 
cv::Mat distCoeffs; 
// 指定 标定 方式 的 标志 
int flag; 


E 意 ,场景 和 图 像 点 的 输入 向 量 实际 上 是 由 Point 实例 的 sta: :vector 构成 的 。 每 个 向 
量 元 素 也 是 一 个 向 量 , 表示 一 个 视角 的 点 集 。 这 里 采用 增加 标定 点 的 方法 ,指定 一 个 以 一 批 棋盘 
图 像 的 文件 名 作为 输入 对 象 的 向 量 ， 该 方法 负责 从 这 些 图 像 中 提取 出 点 的 坐标 : 

// 打开 棋盘 图 像 ， 提 取 角 点 

int CameraCalibrator: :addChessboardPoints!( 


const std::vector<std::string> & filelist，// 文件 名 列表 
cvVv::Size & boardSize) { // 标定 面板 的 大 小 














// 棋盘 上 的 角 点 
std: :vector<cv::Point2f> imageCorners; 
std: :vector<cv::Point3f> objectCorners; 


// 场景 中 的 三 维 点 : 
// 在 棋盘 坐标 系 中 ， 初 始 化 棋盘 中 的 角 点 
// 角 点 的 三 维 坐 标 (X,Y,Z)= (i,j,0) 
for (int i=0; i<boardSize.height; I++) { 
for (int j=0; j<boardSize.width; j++) { 
objectCorners.push back(cv::Point3f (i, j, 0.0f)); 
} 





} 


// 图 像 上 的 二 维 点 : 

cv::Mat image; // 用 于 存储 棋盘 图 像 
int successes = 0; 

// 处 理 所 有 视角 


for (int i=0; i<filelist.size(); i++) { 





// 打开 图 像 


image = cv::imread (filelist[i],0); 


// 取得 棋盘 中 的 角 点 

bool found = cv::findChessboardCorners( 
image， // 包含 棋盘 图 案 的 图 像 
boardSize, // 图 案 的 大 小 
imageCorners); // 检测 到 角 点 的 列表 

// 取得 角 点 上 的 亚 像 素 级 精度 

if (found) { 

CVv::CcornerSubPix(image, imageCorners, 
cv::Size(5,5)，// 搜索 窗口 的 半径 
cv::Size(-1,-1), 
cv::TermCriterial(l cv::TermCriteria: :MAX_ ITER + 

cv::TermCriteria::EPS,30，// 最 大 迭代 次 数 
0.1)); // 最 小 精度 














// 如 果 棋 盘 是 完好 的 ， 就 把 它 加 入 结果 
if (imageCorners.size() == boardSize.area()) { 
// 加 入 从 同一 个 视角 得 到 的 图 像 和 场景 点 
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addPoints (imageCorners, objectCorners); 
successes+t+; 
} 


// 如 果 棋盘 是 完好 的 ， 就 把 它 加 入 结果 

if (imageCorners.size() == boardSize.area()) { 
// 加 入 从 同一 个 视角 得 到 的 图 像 和 场景 点 
addPoints (imageCorners, objectCorners); 





successest+; 
} 
} 


retnrm -sucCesesess 


} 

在 第 一 个 循环 中 输入 棋盘 的 三 维 坐 标 ， 然 后 通过 函数 cv: :findchessboardCcorners 获得 
图 像 中 对 应 的 点 ; 图 像 中 所 有 可 能 的 视角 都 会 执行 该 过 程 。 此 外 ， 使 用 cv: :cornerSubPix 困 
数 可 以 使 图 像 上 点 的 位 置 更 精确 ; 正如 函数 名 所 示 ， 它 能 以 亚 像 素 级 精度 定位 图 像 中 的 点 。 用 
cv: :TermCriteria 对 象 指定 终止 的 条 件 ， 它 定义 了 最 大 迭代 次 数 和 最 小 亚 像 素 级 坐标 精度 。 
只 要 满足 了 这 两 个 条 件 中 的 一 个 ， 这 个 角 点 细 化 过 程 就 会 结 























在 成 功 地 检测 到 一 批 棋盘 角 点 后 ， 用 自 定义 的 aaaPoints 方法 把 这 些 点 加 入 图 像 和 场景 点 
的 向 量 。 处 理 完 足够 数量 的 棋盘 图 像 后 ( 这 时 就 有 了 大 量 的 三 维 场景 点 /二 维 图 像 点 的 对 应 关系 )， 
就 可 以 开始 计算 标定 参数 了 : 


// 标定 相机 

// 返回 重 投影 误差 

double CameraCalibrator::calibrate(cv::Size &imageSize) { 
// 输出 旋转 量 和 平移 量 


Stdq: :Vector<CcV: :Mat> rvecs, tvecs; 








// 开始 标定 
return 
calipbrateCamera (objectPoints，// 三 维 点 

imagePoints， // 图 像 点 
imageSize, // 图 像 尺 寸 
cameraMatrix，// 输出 相机 移 阵 
distCoeffs, // 输出 畸变 矩阵 
rvecs, tvecs, // RS、TSs 
flag); // 设置 选项 





} 
根据 经 验 ，10~20 个 棋盘 图 像 就 足够 了 ,但 是 这 些 图 像 的 深度 和 拍摄 视角 必须 不 同 。 这 个 抑 
数 的 两 个 重要 输出 对 象 是 相机 和 矩阵 和 了 畸变 参数 ， 后 面 会 详细 介绍 。 














11.2.2 ”实现 原理 
为 了 理解 标定 结果 ,我 们 需要 回顾 一 下 11.1 节 介 绍 的 投影 方程 .方程 中 连续 使 用 了 两 个 矩阵 ， 
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把 三 维 空间 的 点 转换 到 二 维 空间 的 点 。 第 一 个 矩阵 包含 了 相机 的 全 部 参数 , 称 作 相 机 的 内 部 参数 。 
这 是 一 个 3x3 和 矩阵， 是 水 数 cv::calibratecamera 输出 的 矩阵 之 一 。 此 外 还 有 一 个 
cv::calibrationMatrixValues 图 数 ， 它 根据 标定 矩阵， 显 式 地 返回 内 部 参数 值 。 


第 二 个 矩阵 的 内 容 是 输入 的 点 ， 以 相机 为 坐标 系 中 心 。 它 由 一 个 旋转 向 量 (3x3 矩阵 ) 和 一 
个 平移 癌 量 (3x1 矩阵) 组 成 。 在 这 个 标定 例子 中 ， 坐 标 系 位 于 棋盘 上 ， 因 此 必须 对 每 个 视图 计 
算 刚 体 变 换 ( 由 一 个 旋转 量 和 一 个 平移 量 组 成 , 旋转 量 用 和 矩阵 入 口 r1 到 *9 表示 , 平移 量 用 t1、 
t2 和 t3 表示 )。 它们 都 是 函数 cv: :calibratecameta 的 输出 参数 。 旋转 和 平移 部 分 通常 称 为 
标定 的 外 部 参数 ,并 且 对 于 每 个 视图 都 各 不 相同 。 对 于 特定 的 相机 /镜头 ， 内 部 参数 是 固定 不 变 的 。 


函数 cv: :calibratecamera 在 得 到 标定 结果 之 前 进行 了 优化 , 以 便 找到 合适 的 内 部 参数 
和 外 部 参数 ， 使 图 像 点 的 预定 义 位 置 (根据 三 维 点 的 投影 计算 得 到 ) 和 实际 位 置 (图像 中 的 位 
置 ) 之 间 的 距离 达到 最 小 。 每 个 点 在 标定 过 程 中 都 会 产生 这 个 距离 ， 它 们 的 累加 和 就 是 重 投影 
误差 。 

利用 27 个 棋盘 图 像 标 定 得 到 的 内 部 参数 为 : fx=409、fy=408、u,=237、v,=171 (单位 为 
像素 )。 这 些 图 像 含有 536x356 个 像素 。 从 标定 结果 可 以 看 出 ， 主 点 确实 非常 靠近 图 像 中 心 点 ， 
但 仍 相距 几 个 像素 。 这 些 图 像 是 用 18 mm 镜头 的 尼康 D500 相机 拍摄 的 。 查 看 该 相机 的 说 明 书 ， 
它 的 传感器 尺寸 为 23.5 mmx15.7 mm， 即 像素 宽度 为 0.0438 mm。 计 算得 到 的 焦距 单位 是 像素 ， 
乘 以 像素 宽度 即 得 到 实际 焦距 17.8 mm， 与 实际 使 用 的 镜头 一 致 。 


现在 来 看 畸变 参数 。 到 现在 为 止 ， 我 们 一 直 认为 在 针 孔 相机 模型 下 ， 镜 头 的 影响 是 可 以 忽 
略 的 ， 但 这 仅 限 于 镜头 在 抓 取 图 像 时 不 会 产生 严重 视觉 畸变 的 情况 。 但 如 果 使 用 了 劣质 镜头 或 
者 镜头 的 焦距 太 短 ， 情 况 就 不 同 了 。 即 使 是 这 次 实验 中 采用 的 镜头 也 会 造成 畸变 : 矩形 棋盘 的 
边线 已 经 扭曲 。 从 图 像 中 心 移 开 时 ， 畸 变 会 变 得 更 加 严重 。 这 是 超 广角 镜头 产生 的 典型 畸变 ， 
称 为 径 向 畸变 。 


通过 引入 合适 的 畸变 模型 ,可 以 对 变形 的 情况 加 以 改善 。 其 原理 是 用 一 系列 数学 公式 表示 因 
镜头 产生 的 畸变 。 公 式 在 建立 后 可 以 进行 还 原 ， 以 恢复 图 像 中 可 见 的 畸变 。 幸 好 在 标定 阶段 可 以 
获得 纠正 畸变 所 需 的 准确 变换 参数 以 及 其 他 相机 人 参数。 完成 这 个 步骤 后 , 用 刚 标定 的 相机 拍摄 的 
所 有 图 像 都 不 会 有 畸变 。 因 此 ， 我 们 在 标定 类 中 增加 了 一 个 额外 的 方法 : 

// 去 除 图 像 中 的 畸变 (标定 后 ) 


cvV: :Mat CameraCalibrator::remap(const cvV: :Mat &image) { 










































































































































































cv::Mat undistorted; 
if (mustInitUndistort) { // 每 个 标定 过 程 调用 一 次 
cv::initUndistortRectifyMap( 


cameraMatrix， // 计算 得 到 的 相机 和 矩阵 
distCoeffs, // 计算 得 到 的 畸变 和 矩阵 











cv::Mat()， // 可 选 矫 正 项 (无 ) 

cv: :Mat (), // 生成 无 时 变 的 相机 徐 阵 
image.size()， // 无 时 变 图 像 的 尺寸 
CV_32FC1, // 输出 图 片 的 类 型 
mapl, map2); // X 和 y 映射 功能 





mustInitUndistort= false; 


// 应 用 映射 功能 
cv::remap (image, undistorted, mapl, map2, 


CV: :INTER_LINEAR); // 插值 类 型 


return undistorted; 


使 用 一 个 标定 图 像 ， 运 行 这 段 代 码 后 得 到 没有 畸变 的 图 像 。 








WW Undistorted Image 





为 了 纠正 畸变 ，OpenCV 使 用 了 一 个 多 项 式 函 数 ， 把 图 像 点 移动 到 未 畸变 的 位 置 。 默 认 使 
用 5 个 系数 ， 也 可 以 采用 有 8 个 系数 的 模型 。 得 到 系数 后 ， 就 可 以 计算 两 个 cv: :Mat 类 型 的 
映射 函数 (分别 用 于 x 坐标 和 y 坐标 )， 把 有 畸变 的 图 像 上 的 像素 点 映射 到 未 畸变 的 新 位 置 。 枯 
数 cv: :initUunaistortRectifyMap 计算 上 映射 值 ， 函 数 cv: :remap 把 输入 图 像 的 点 映射 到 新 
图 像 上 。 注 意 ， 因 为 是 非 线 性 变换 ， 所 以 输入 图 像 中 的 部 分 像素 映射 后 会 超出 输出 图 像 的 边界 。 
可 以 扩大 输出 图 像 的 尺寸 以 弥补 像素 丢失 , 但 这 样 的 话 就 需要 填充 在 输入 图 像 中 没有 值 的 输出 像 
素 (它们 将 显示 为 黑色 像素 )。 









































11.2.3 扩展 阅读 
在 相机 标定 过 程 中 可 以 使 用 更 多 的 选项 。 
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1. 用 已 知 的 内 部 参数 进行 标定 


如 果 可 以 准确 估算 相机 的 内 部 参数 , 那么 将 这 些 参数 输入 函数 cv: :calibratecamera 将 
十 分 有 利 。 它 们 可 作为 优化 处 理 过 程 的 初始 值 。 要 实现 这 一 步 操 作 ， 你 只 需 添 加 cv: :CALIB_ 
USE_INTRINSIC_GUESS 标志 ， 并 在 标定 矩阵 参数 中 输入 这 些 值 。 你 可 以 把 图 像 主 点 强制 设 为 
某 个 固定 的 值 ( cv: :CALIB_FIX_PRINCIPAL_POINT )， 通 常 假定 它 就 是 中 心 点 的 像素 ; 还 可 
以 把 焦距 fx 和 fy 强制 设 成 某 个 固定 的 比例 (cv: :CALIB_FIX_RATIO )。 在 此 情况 下 ， 假 设 
像素 集 是 一 个 正方 形 。 


2. 使 用 圆 形 组 成 的 网 格 进行 标定 


除了 通常 使 用 的 棋盘 图 案 ，OpenCV 还 可 以 使 用 由 圆 形 组 成 的 网 格 进行 相机 标定 。 这 时 就 用 
圆心 作为 标定 点 。 对 应 的 函数 与 前 面 定 位 棋盘 角 点 的 函数 非 党 类似， 例如: 
Cv::SizZe boardSize(7,7); 


std: :vector<cv: :Point2f> centers; 
bool found = cv:: findCirclesGrid(image, boardSize, centers); 



























































11.2.4 ”参阅 


口 Z. Zhang 于 2000 年 发 表 在 IEEE Transactions on Pattern Analysis and Machine Intelligence 
第 22 11 期 的 “A flexible new technique for camera calibration” 是 解决 相机 标定 问题 
的 经 典 论 


2 红 六 了 
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标定 后 , 相机 就 可 以 用 来 构建 照片 与 现实 场景 的 对 应 关系 。 如果 一 个 物体 的 三 维 结构 是 已 知 
的 ， 就 能 得 到 它 在 相机 传感器 上 的 成 像 情 况 。11.1 节 的 投影 方程 描述 了 完整 的 成 像 过 程 。 如 果 该 
方程 中 的 大 多 数 项 目 是 已 知 的 ， 利 用 若干 张 照 片 ， 就 可 以 计算 出 其 他 元 素 ( 二 维 或 三 维 ) 的 值 。 
本 市 将 介绍 在 已 知 三 维 结构 的 情况 下 ， 如 何 计算 出 相机 的 姿态 。 





























11.3.1 如何 实现 


来 看 一 个 简单 的 物体 一 一 公园 里 的 长 椅 。 用 上 一 节 经 过 标定 的 相机 /镜头 对 它 拍照 ， 同 时 在 
长 椅 上 标注 8 个 点 ， 用 于 相机 姿态 的 估算 。 
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男 ; An image of a bench | x 








来 测量 一 下 这 个 长 椅 的 物理 尺寸 。 它 的 椅 座 为 242.5 cmx53.5 cmx9 cm， 靠 背 为 242.5 cmx 
24 cmx9 cm， 椅 座 与 靠背 之 间 相 距 12 cm。 利 用 这 些 信息 ， 可 以 很 容易 地 推导 出 这 8 个 点 的 三 维 
坐标 〈 这 里 把 椅 座 与 靠背 的 交叉 线 的 左 侧 顶点 作为 坐标 系 原 点 )。 下 面 创 建 包含 这 些 坐 标的 
:Point3f 容器 : 


// 输入 物体 上 的 点 
td: :Vector<cVv: :Point3f> objectPoints; 
_back(cv::Point3f(0, 45, 0)); 
_back( ( 
_back( ( 
_back (cv::Point3f (0 
_back(cv::Point3f(0, 9, -9)); 
kK( ( 
kK( ( 
kK( (0 


s 
objectPoints.pus 
objec 
objec 
objec 
oO 
oO 
oO 
oO 


t Cv: :Point3f 
bjectPoints.pus 


cv: :Point3f 


Points.pus 
Points.pus 
Points.pus 


_back (cv: :Point3f 42. by 9 9) sy 
_bac 2 95) 
bac 9 4405))3 


bjectPoints.pus 
bjec 
bjec 


Points.pus cv: :Point3f 
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Points.pus Cv: :Point3f 


现在 的 问题 是 , 要 计算 出 拍照 时 相机 与 这 些 点 之 间 的 相对 位 置 。 因 为 在 二 维 成 像 平面 中 , 包 
3 所 以 解决 这 个 问题 非常 简单 ， 只 需 调 用 cv: :solvePnP 函数 
即 可 .这 三 维 点 和 二 维 点 的 对 应 关系 是 人 为 指定 的 ,但 是 也 可 以 找到 自动 获取 这 些 信息 的 方法 。 


// 输入 图 像 上 的 点 











std: :vector<cvV::Point2f> imagePoints; 

imagePoints.push back(cv::Point2f (136, 113)); 
imagePoints.push back(cv::Point2f (379, 114)); 
imagePoints.push back(cv::Point2f(379, 150)); 
imagePoints.push back(cv::Point2f (138, 135)); 
imagePoints.push back(cv::Point2f (143, 146)); 
imagePoints.push back(cv::Point2f(381, 166)); 
imagePoints.push back(cv::Point2f (345, 194)); 
imagePoints.push back(cv::Point2f (103, 161)); 
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// 根据 三 维 / 二 维 点 得 到 相机 姿态 
CV: :Mat rvec, tvec; 
cV: :SO1LVePnP( 


objectPoints, imagePoints, // 对 应 的 三 维 / 二 维 点 
cameraMatrix, cameraDistCoeffs，// 标定 
rvec, tvec); // 输出 姿态 


// 转换 成 三 维 旋转 和 矩阵 
cV: :Mat rotation; 
cvV::Rodrigues (rvec, rotation); 


这 个 函数 实际 上 是 做 了 一 个 刚体 变换 ( 旋转 和 平移 )， 把 物体 坐标 转换 到 以 相机 为 中 心 的 坐 
标 系 上 即 以 焦点 为 坐标 原点 )。 还 有 一 点 需要 注意 ， 这 个 函数 得 到 的 旋转 量 是 一 个 三 维 容器 。 
这 是 一 种 简洁 的 表示 方法 ， 表 示 物 体 绕 着 一 个 单位 向 量 (旋转 轴 ) 转 了 某 个 角度 。 这 种 “ 轴 + 角 
度 ” 的 表示 方法 又 称 为 罗 德 里 格 旋转 公式 ( Rodrigues rotation formula )。 在 OpenCV 中 ， 旋 转角 
度 对 应 着 输出 的 旋转 向 量 的 值 ， 该 向 量 与 旋转 轴 一 致 。 正 因 如 此 ， 投 影 公 式 中 使 用 了 
cv: :Rodrigues 函数 来 获取 旋转 的 三 维和 矩阵 。 

这 里 的 姿态 还 原 过 程 非 常 简 单 ， 但 是 如 何 确认 得 到 的 相机 /物体 的 姿态 是 正确 的 呢 ? 使 用 
cv: :viz 模块 可 以 显示 三 维 信息 ， 从 而 直观 地 评测 效果 。13.3.3 节 将 介绍 如 何 使 用 该 模块 ， 这 里 
先 显 示 物 体 和 相机 的 简易 三 维 图 。 
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只 看 这 个 图 是 很 难 判 断 姿 态 还 原 结果 是 好 还 是 坏 的 , 但 你 如 果 是 在 计算 机 上 进行 测试 , 就 能 
用 鼠标 移动 三 维 物体 ， 更 直观 地 查看 结果 。 








11.3.2 ”实现 原理 
本 节 假 定 物体 的 三 维 结构 是 已 知 的 , 物体 上 的 点 与 图 像 中 的 点 的 对 应 关系 也 是 已 知 的; 通过 
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标定 ， 相 机 的 内 部 参数 也 是 已 知 的 。 对 于 11.1 节 投 影 公 式 来 说 ， 这 意味 着 那些 点 的 坐标 (X, 又 刁 
和 (x, y) 都 是 已 知 的。 而 且 第 一 个 矩阵 的 元 素 ( 内 部 参数 ) 也 是 已 知 的 ， 只 有 第 二 个 矩阵 是 未 知 
的 它 包含 了 相机 的 外 部 参数 ， 即 相机 /物体 的 姿态 信息 。 我 们 要 做 的 就 是 观察 三 维 场景 中 的 
点 ， 并 计算 出 这 些 未 知 的 参数 。 这 就 是 透视 n 点 定位 ( Perspective-n-Point，PnP ) 问题 。 


旋转 有 三 个 自由 度 (例如 侯 三 个 轴 旋 转 的 角度 )， 平 移 也 有 三 个 自由 度 ， 因 此 共有 六 个 未 知 
项 。 对 于 每 个 “物体 点 /图 像 点 ”对 ， 可 根据 投影 公式 得 到 三 个 代数 方程 ; 但 由 于 投影 公式 有 缩 
放 因 子 ， 实际 上 只 能 得 到 两 个 独立 的 方程 。 因此， 车 要 求解 方程 ， 至 少 需 要 三 个 点 。 当 然 了 ， 点 
的 数量 越 多 ， 佑 算 的 效果 就 越 好 。 


在 实际 应 用 中 , 可 以 用 很 多 不 同 的 算法 获取 结果 , OpenCYV 的 cv: :solvePnP 函数 也 提供 了 
多 种 实现 方法 。 默 认 方 法 对 重 投 影 误差 进行 了 优化 。 一 般 来 说 , 阁 想 根据 照片 获取 精确 的 三 维 信 
息 ， 就 要 尽量 减 小 重 投影 误差 。 在 本 例 中 ,就 是 要 找到 最 佳 的 相机 位 置 ,使 被 投影 的 三 维 点 ( 利 
用 投影 公式 得 到 ) 和 观测 到 的 图 像 点 之 间 的 二 维 距离 达到 最 小 。 

注意 ，OpenCYV 还 提供 了 cv: :SolvePnPRansac 子 数 。 顾 名 思 义 ， 它 使 用 RANSAC 算法 
来 求解 PnP 问题 。 这 个 函数 能 识别 出 错误 的 物体 点 /图 像 点 对 ， 并 将 其 标记 为 异常 数据 。 如 果 数 
据 对 是 自动 获取 的 ， 就 难免 有 一 些 错 误 的 点 ， 那 这 个 函数 就 能 派 上 用 场 了 。 

































































11.3.3 扩展 阅读 


处 理 三 维 信息 时 ， 经 常 遇 到 难以 对 方法 进行 验证 的 问题 。 为 此 ，OpenCyV 提供 了 一 个 简便 又 
高 效 的 视觉 处 理 模 块 ,用 于 开发 和 调试 三 维 图 像 处 理 算法 。 用 它 可 以 在 虚拟 的 三 维 空间 中 插入 点 、 
线 、 相 机 和 其 他 物体 ， 从 而 从 不 同 的 视角 进行 可 视 化 交互 。 


三 维 可 视 化 模块 cv: :viz 


在 OpenCV 中 ，cv: :viz 是 一 个 基于 可 视 化 工具 包 ( Visualization Toolkit，VTK ) 的 附加 模 
块 。 它 是 一 个 强大 的 三 维 计算 机 视觉 框架 ， 可 以 创建 虚拟 的 三 维 环境 ， 并 添加 各 种 物体 。 它 会 创 
建 可 视 化 的 窗口 ， 用 来 显示 从 特定 视角 观察 到 的 虚拟 环境 。 本 节 将 通过 一 个 例子 说 明 cv: :viz 
窗口 能 显示 什么 ， 以 及 如 何 用 鼠标 控制 窗口 内 的 物体 (旋转 和 平移 )。 这 里 先 介 绍 一 下 cv: :viz 
模块 的 基本 用 法 。 
首先 创建 一 个 可 视 化 窗口 ， 采 用 白色 背景 : 
// 创建 viz 窗口 


cvV::Viz::Viz3dq visualizer("Viz window"); 
visualizer.setBackgroundColor(cv::viz::Color::white()); 


然后 创建 虚拟 物体 并 加 入 到 场景 。 预 定义 的 物体 有 很 多 种 ， 其 中 一 个 对 我 们 特别 有 用 ， 即 创 
建 一 个 虚拟 针 孔 相机 : 
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// 创建 一 个 虚拟 相机 
CV::VizZ::WCameraPosition cam( 
cMatrix，// 内 部 参数 矩阵 
image, // 平面 上 显示 的 图 像 
30.05 // 缩放 因子 
cvV::Viz::Color::black()):; 
// 在 环境 中 添加 虚拟 相机 


visualizer.showWidget ("Camera", cam); 


变量 cMatrix 的 类 型 为 cv: :Matx33d ( 即 cv: :Matx<double,3,3>)， 表 示 标 定时 得 到 
的 内 部 相机 参数 。 上 默认 情况 下 ， 相 机 放 在 坐标 系 的 原点 。 用 两 个 长 方 体 表示 长 椅 : 


// 用 长 方 体 表 示 虚 拟 的 长 椅 
Cv: :VizZ::WCube planel (cv::Point3f(0.0, 45.0, 0.0), 
GV Point3f(242...5;. 221350, =9.:.0.) 7， 
true, // 显示 线条 框架 
OVNIZ OLOr:. DEe()): 
planel.setRenderingProperty (cv: :viz::LINE WIDTH, 4.0); 
Cv: :VizZ::WCube plane2 (cv::Point3f(0.0, 9.0, -9.0), 
GvirpPoint3f(242..5; 0,0, 44.5), 
true，// 显示 线条 框架 
OVITYLIZ 人 COLOr: SEE())s 
Plane2 .setRendqeringProperty (cv: :viz::LINE WIDTH, 4.0); 
// 把 虚拟 物体 加 入 到 环境 中 
visualizer.showWidget ("top", planel); 
visualizer.showWidget ("bottom", plane2); 


虚拟 长 椅 也 放 在 坐标 原点 ， 然 后 用 cv: :solvePnP 函数 计算 出 以 相机 为 中 心 的 位 置 ， 并 把 
长 椅 移 动 到 该 位 置 。 这 个 过 程 在 setwidgetPose 方法 中 完成 。 这 里 只 是 根据 估算 值 进 行 了 旋转 
和 平移 : 


cv::Mat rotation; 


// 将 rotation 转换 成 3x3 的 旋转 矩阵 


cvV: :Rodrigues (rvec, rotation); 























// 移动 长 椅 
cv::Affine3d pose(rotation, tvec); 
visualizer.setWidgetPose("top", pose); 








visualizer.setWidgetPose("bottom", pose) | 
最 后 用 一 个 循环 ， 不 断 显示 可 视 化 窗口 。 中 间 暂 停 1 毫秒 ， 以 啊 应 鼠标 事件 : 
// 循环 显示 
while(cv::waitKey (100)==-1 && !visualizer.wasStopped()) { 
visualizer.spinonce(1， // 暂停 工 毫秒 
true); // 重 绘 


} 


关闭 可 视 化 窗口 或 者 在 OpenCV 图 像 窗 口上 输入 任意 键 就 可 以 结束 循环 。 在 循环 内 部 移动 物 
体 (用 setwiagetPose )， 即 可 产生 动画 。 
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11.3.4 “参阅 


口 D. DeMenthon 和 世 L. S. Davis 于 1992 年 发 表 在 European Conference on Computer Vision 第 
335 页 至 第 343 页 的 “Model-based object pose in 25 lines of code” 是 根据 场景 点 进行 相机 
姿态 还 原 的 著名 方法 。 

口 10.3 节 描 述 了 RANSAC 算 法 。 

口 1.2 节 介绍 了 安装 RANSAC cv: :viz 模块 的 方法 。 
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上 一 节 讲 过 ,只 要 相机 经 过 标定 , 就 有 可 能 根据 三 维 场景 还 原 相机 的 位 置 。 这 是 因为 在 特定 
情况 下 , 三维 场景 中 某 些 点 的 坐标 是 已 知 的 。 本 闻 将 说 明 ， 当 从 多 个 视角 观察 同一 个 场景 时 ,， 即 
使 没有 三 维 场景 的 任何 信息 , 也 可 以 重建 三 维 姿态 和 结构 。 我们 这 次 将 利用 不 同 视角 下 图 像 点 之 
间 的 关系 ,计算 出 三 维 信息 。 本 节 还 将 介绍 一 种 新 的 数学 实体 ,用 来 表示 一 个 已 标定 相机 的 两 个 
视图 之 间 的 关系 ; 此 外 ， 还 将 引入 三 角 训 分 的 概念 ， 根 据 二 维 图 像 重 建 三 维 点 。 


























11.4.1 如何 实现 


这 里 仍 使 用 本 章 一 开始 标定 的 相机 对 同一 个 场景 拍摄 两 张 照片 。 我 们 可 以 使 用 某 种 方法 ( 例 
如 第 8 章 介绍 的 SIFT 检测 器 和 第 9 章 介绍 的 描述 子 ) 匹配 出 这 两 个 视图 的 特征 点 。 


相机 的 标定 参数 是 能 够 获取 到 的 , 因此 可 以 使 用 世界 坐标 系 , 还 可 以 用 它 在 相机 姿态 和 对 应 
点 的 位 置 之 间 建 立 一 个 物理 约束 。 这 里 引入 一 个 新 的 数学 实体 一 一 本 质 和 矩阵。 简单 来 说 ， 本 质 矩 阵 
就 是 经 过 标定 的 基础 矩阵 ( 有 关 基 础 矩阵 的 介绍 见 上 一 章 ), 它 有 一 个 和 cv: : fingdFundametalMat 
(详情 请 参见 10.2 节 ) 一 样 的 函数 ， 即 cv: :findEssentialMat。 调 用 该 也 数 时 输入 已 经 建立 
的 点 之 间 的 对 应 关系 ， 它 会 别 除 掉 偏 离 较 大 的 点 ， 只 留 下 与 检测 到 的 几何 形状 一 致 的 匹配 项 : 

// 关键 点 和 描 数 子 的 容器 

std::vector<cv: :KeyPoint> keypoints!l; 


std: :vector<cv: :KeyPoint> keypoints2; 
cv::Mat descriptorsl, descriptors2; 
































// 创建 SIFT 特征 检测 器 
Cv: :Ptr<cv::Feature2D> ptrFeature2D = 
cv: :xfeatures2d: :SIFT: :create(500); 


// 检测 SIFT 特征 和 相关 的 描述 子 

ptrFeature2D->detectAndCompute(imagel, cv::noArray(), 
keypointsl, descriptorsl); 

ptrFeature2D->detectAndCompute(image2, cv::noArray(), 
keypoints2, descriptors2); 
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// 匹配 两 幅 图 像 的 描述 子 
// 创建 匹配 器 并 交叉 检查 
cv::BFMatcher matcher (cv: :NORM L2, 
std: :vector<cv: :DMatch> matches; 

matcher.match (descriptors1l, 





// 将 关键 点 转换 成 Point2f 类 型 
std: :Vector<cV::Point2f> points1l， 
for 
matches.begin(); it 
// 获取 左 侧 关键 点 的 位 置 
fl1Oat. = 
float y = 
pointsl.push back (cv::Point2f (x, 
// 获取 右 侧 关 键 点 的 位 置 
XxX = keypoints2[it->trainIdx] .pt.x; 
y = keypoints2[it->trainIdx] .pt.y; 
points2.push back(cv::Point2f (x, y)); 
} 


y)); 


// 找 出 imagel 和 image2 之 间 的 本 质 矩 阵 
cv::Mat inliers; 
cv::Mat essential = 
Matrix, 
CV: :RANSAC, 
0.9;; -0s 
inliers); 


得 到 的 内 点 匹配 项 如 下 图 所 示 。 





descriptors2, 


true); 


points2; 
(std: :vector<cv: :DMatch>: :const_iterator it = 
1= matches .end(); 


++i 七 ) 


keypointsl[it->queryIdx] .pt.x; 
keypointsl[it->queryIdx] .pt.y; 


cv::findEssentialMat (points1, 


matches); 


{ 


points2, 


// 内 部 参数 


// RANSAC 方法 
// 提取 到 的 内 点 





本 Inliers matches 








本 质 矩 阵 封 装 了 表示 两 个 视图 之 间 差异 的 旋转 量 和 平移 量 ， 下 





一 节 会 具体 介绍 。 所 以 , 根据 


这 个 矩阵 ,我 们 可 以 直接 还 原 两 个 视图 之 间 的 相对 姿态 。OpenCV 提供 了 cv: :recoverPose 也 


数 ， 可 实现 这 个 功能 ， 用 法 如 下 所 示 : 


// 根据 本 质 矩 阵 还 原 相机 的 相对 姿态 
cV: :Mat rotation, translation; 
Cv::recoverPpose(essential, 


// 本 质 和 矩阵 
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pointsl, points2, // 匹配 的 关键 点 
cameraMatrix, // 内 部 矩阵 
rotation，translation， // 计算 的 移动 值 
inliers) // 内 点 匹配 项 


现在 已 经 得 到 了 两 个 相机 之 间 的 相对 姿态 ， 可 以 用 它 计 算 连 接 两 个 视图 之 间 的 点 所 处 的 位 
置 。 下面 的 示意 图 说 明了 计算 的 原理 , 其 中 两 个 相机 的 位 置 是 计算 得 到 的 ( 左 侧 相机 的 位 置 为 坐 
标 原点 )。 同 时 选取 一 对 匹配 的 点 ， 并 且 根 据 投影 几何 模型 ， 对 每 个 点 画 一 条 直线 ， 对 应 三 维 点 
的 位 置 在 这 条 直线 上 : 























大 ;Viz - Viz window 3 口 x 




















因为 这 两 个 图 像 点 是 由 同一 个 三 维 点 产生 的 , 所 以 这 两 条 直线 肯定 会 相交 , 并 且 交 点 就 是 三 
维 点 的 位 置 。 在 确定 两 个 相机 的 相对 位 置 后 ， 两 个 相关 图 像 点 的 投影 线 相交 ,这 种 方法 就 是 三 角 
剖 分 。 完 成 这 个 过 程 的 先决 条 件 是 有 两 个 投影 矩阵 , 并 且 对 每 个 匹配 项 都 是 有 效 的 。 不 过 要 注意 ， 
这 些 投影 矩阵 必须 用 世界 坐标 系 表示 这 可 用 cv: :undaistortPoints 实现 。 


最 后 调用 triangulate 函数 ， 计 算 三 角 剖 分 点 的 位 置 ， 后 面 会 详细 介绍 : 


// 根据 旋转 量 R 和 平移 量 工 构建 投影 矩阵 

cv::Mat projection2(3，4，CV_64F); // 3x4 的 投影 矩阵 
rotation.copyTo (projection2 (cv::Rect (0, 0, 3, 3))); 
translation.copyTo (projection2.colRange (3, 4)); 

// 构建 通用 投影 和 拭 阵 

cv::Mat projection1(3，4，CV_64F，0.); // 3x4 的 投影 矩阵 
cv::Mat qiag(cv::Mat::eye(3，3，CV_64F) ) ; 

diag.copyTo (projectionl (cv::Rect (0, 0, 3, 3))); 





























// 用 于 存储 内 点 
std: :vector<cv::Vec2d> inlierPtsil; 
std: :vector<cv::Vec2d> inlierPpts2; 
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// 创建 输入 内 点 的 容器 ， 用 于 三 角 剖 分 


int j(0); 
for (int i = 0; i < inliers.rows; i++) { 
if (inliers.at<uchar>(i)) { 


inlierPtsl.push back(cv::Vec2d(pointsl[i].x, pointsl[i].y)); 
inlierPts2.push back(cv::Vec2d(points2[i] .x, points2[i].y)); 
} 
} 


// 矫正 并 标准 化 图 像 点 

std: :vector<cv: :Vec2d> pointslu; 

cv::undistortPoints (inlierPtsl1l, pointsilu, 
cameraMatrix, cameraDistCoeffs); 

std: :vector<cv: :Vec2d> points2u; 

cv::undistortPoints (inlierPts2, points2u, 
cameraMatrix, cameraDistCoeffs); 


// 三 角 剖 分 

std: :vector<cv::Vec3d> points3D; 

triangulate (projectionl, projection2, 
pointslu, points2u, points3D); 


得 到 位 于 场景 表面 的 一 批 三 维 点 。 


图 时 Viz - Viz window i 口 x 





i 
J “4. 

















注意 ， 从 这 个 新 的 视角 观察 ， 两 条 直线 并 没有 相交 ， 下 一 节 会 具体 解释 。 


11.4.2 ”实现 原理 

利用 标定 矩阵 可 把 像素 坐标 系 转换 成 世界 坐标 系 , 这 样 将 图 像 点 与 原始 的 三 维 点 建立 关联 就 
会 变 得 更 加 容易 ， 如 下 图 所 示 。 下 面 对 照 这 幅 图 片 , 来 说 明 世 界 坐 标 系 中 的 点 与 多 幅 图 像 之 间 的 
简单 关系 。 
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图 中 有 两 个 相机 ， 相 对 的 旋转 量 为 尺 ， 平移 量 为 7。 平移 向 量 工 刚好 连接 了 两 个 相机 的 投影 
中 心 点 。 此 外 ,向 量 x 连接 第 一 个 相机 的 中 心 点 与 一 个 图 像 点 ,向 量 zx 和 连接 第 二 个 相机 的 中 心 点 
与 对 应 的 图 像 点 。 因 为 这 两 个 相机 之 间 的 移动 量 是 已 知 的 , 所 以 可 以 用 与 第 二 个 相机 的 相对 值 来 
表示 x 的 方向 , 记 为 Rx。 仔细 观察 图 像 点 的 几何 形状 ,就 能 发 现 T、Rx 和 x 在 同一 个 平面 上 。 这 
个 关系 可 用 数学 公式 表示 : 











X(TxRx)=xEx=0 


因为 交叉 乘积 运算 也 可 以 用 和 矩阵 运算 表示 ,所 以 把 第 一 个 关系 简化 为 一 个 简单 的 3x3 矩阵 E。 
这 个 矩阵 已 就 是 本 质 和 矩阵， 对 应 公式 等 价 于 10.2 节 介 绍 的 极 线 约束 ， 但 经 过 了 标定 。 和 基础 矩 
阵 一 样 ， 你 可 以 用 图 像 对 应 关系 计算 出 本 质 和 矩阵 ， 但 后 者 是 用 世界 坐标 系 表 示 的 。 前 面 提 到 过 ， 
本 质 和 矩阵 也 是 由 两 个 相机 之 间 的 旋转 量 和 平移 量 生 成 的 。 因 此 ， 如 果 得 到 了 本 质 矩 阵 ， 就 可 以 
分 解 得 到 相机 之 间 的 相对 姿态 。 实 现 该 功能 的 函数 是 cv: :recoverPose。 该 函数 会 调用 cv: : 
decomposeEssentialMat 卫 数 , 后 者 会 生成 四 个 相对 姿态 结果 。 然 后 根据 现 有 的 匹配 项 ,判断 
哪 种 相对 姿态 是 可 能 存在 的 ， 从 而 得 到 正确 的 结 


得 到 相机 之 间 的 相对 姿态 后 ,就 可 以 用 三 角 剖 分 得 到 匹配 项 上 任意 点 的 位 置 。 求 解 三 角 痢 分 
问题 的 方法 有 好 几 种 , 这 里 介绍 一 种 比较 简单 的 。 将 两 个 投影 矩阵 分 别 设 为 已 和 已, 待 求解 的 三 
维 点 在 齐 次 坐标 系 中 的 位 置 可 表示 为 天 [多 Z, 1] ， 且 大 PXY，x=PX。 这 两 个 齐 次 方程 可 分 别 
得 到 两 个 独立 的 方程 ， 满 足 求解 三 维 点 的 三 个 坐标 的 要 求 。 可 以 使 用 OpenCy 的 工具 函数 
cv::solve， 用 最 小 二 乘法 求解 这 个 超 定 方程 组 。 完 整 的 函数 为 : 

// 用 线性 最 小 二 乘法 求解 三 角 剖 分 
cv::Vec3d triangulate(const cv: :Mat &p1， 
const cv::Mat &p2, 


const cv::Vec2d g&ul, 
const cv::Vec2d &u2) { 






















































































// 方程 组 假定 image=[u,V]、X=[X,y,zZ,1] 

/A (D3 Dl (D3)EB 

cv: :Matx43d A(ul(0)*pl.at<double>(2, 0) - pl.at<double>(0, 0), 
ul(0)*pl.at<double>(2, 1) - pl.at<double>(0, 1), 
ul(0)*pl.at<double>(2, 2) - pl.at<double>(0, 2),， 


11.4 用 标定 相机 实现 三 维 重建 243 


























ul(1)*pl.at<double>(2, 0) - pl.at<double>(1, 0), 
ul(1)*pl.at<double>(2, 1) - pl.at<double>(1, 1), 
ul(1)*pl.at<double>(2, 2) - pl.at<double>(1, 2), 
u2(0)*p2.at<double>(2, 0) - p2.at<double>(0, 0), 
u2(0)*p2.at<double>(2, 1) - p2.at<double>(0, 1), 
u2(0)*p2.at<double>(2, 2) - p2.at<double>(0, 2), 
u2(1)*p2.at<double>(2, 0) - p2.at<double>(1, 0), 
u2(1)*p2.at<double>(2, 1) - p2.at<double>(1, 1), 
u2(1)*p2.at<double>(2, 2) - p2.at<double>(1, 2)); 

cv: :Matx41d Bl(pl.at<double>(0, 3) - ul(0)*pl.at<double>(2, 3), 
pl.at<double>(1, 3) - ul(1)*pl.at<double>(2, 3), 
p2.at<double>(0, 3) - u2(0)*p2.at<double>(2, 3), 
p2.at<double>(1, 3) - u2(1)*p2.at<double>(2, 3)); 

// X 包含 重建 点 的 三 维 坐 标 

Cv::Vec3d XxX; 

// 求解 AX=B 

cv::solve(A, B, X, cv::DECOMP_SVD); 

return X; 


} 

前 面 反 复 提 到 过 , 由 于 噪声 和 数字 化 过 程 的 影响 ,理想 情况 下 应 该 相交 的 投影 线 在 实际 中 一 
般 不 会 相交 。 所 以 用 最 小 二 乘法 就 可 以 大 致 找到 交点 的 位 置 。 但 这 种 方法 无 法 重建 无 穷 远 处 的 点 ， 
因为 它们 的 齐 次 坐标 的 第 4 个 元 素 为 0， 而 不 是 假定 的 1。 


还 有 一 点 很 重要 , 三维 重建 只 受 限于 缩放 因子 。 如 果 要 测量 实际 太 寸 ,就 必须 预先 确定 至 少 
一 个 长 度 值 ， 例 如 两 个 相机 之 间 的 实际 距离 或 者 画面 中 某 个 物体 的 实际 高 度 。 
































11.4.3 扩展 阅读 
在 计算 机 视觉 研究 中 ， 三 维 重建 的 内 容 非 常 广泛 ，OpenCV 中 相关 的 内 容 也 会 不 断 扩充 。 
1. 分 解 单 应 矩阵 


前 面 说 过 , 本 质 和 矩阵 是 可 以 分 解 的 ,从 而 得 到 两 个 相机 之 间 的 旋转 量 和 平移 量 。 而 上 一 章 说 
过 ,平面 的 两 个 视图 之 间 存 在 一 个 单 应 矩阵 , 这 里 的 单 应 矩阵 也 包含 旋转 量 和 平移 量 这 两 个 分 量 。 
此 外 , 它 还 包含 平面 的 信息 , 即 从 每 个 相机 到 平面 的 法 线 。 你 可 以 用 cv: :decomposeHomographyMat 
函数 分 解 单 应 矩阵 ; 当然 了 ， 前 提 是 必须 有 经 过 标定 的 相机 。 

2. 光束 调整 

这 里 首先 根据 匹配 项 计算 相机 位 置 ,然后 通过 三 角 剖 分 实现 三 维 重 建 ,这 个 过 程 可 以 一 般 化 ， 
使 用 任意 数量 的 视图 。 对 每 个 视图 都 检测 特征 点 ,并 与 其 他 视图 匹配 。 有 了 这 些 信 息 ,就 可 以 建 
立方 程 ， 将 视图 间 旋 转 / 偏 移 量 、 三 维 点 集 以 及 标定 信息 关联 起 来 。 然 后 ， 进 行 一 个 很 长 的 优化 
过 程 , 使 所 有 点 在 每 个 视图 ( 如 果 视 图 上 有 这 个 点 ) 上 的 重 投影 误差 达到 最 小 ,使 全 部 未 知 项 得 
到 优化 ,这 个 经 过 组 合 的 优化 过 程 就 是 光束 调整 ,查看 cv: :detail::BundleAdjusterReproj 
类 就 会 发 现 ， 它 实现 了 一 个 相机 参数 细 化 算法 ， 可 以 最 小 化 重 投影 误差 的 平方 和 。 
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11.4.4 “参阅 


口 R. Hartley 和 了 Sturm 于 1997 年 在 Computer Vision and Image Understanding 第 68 卷 第 2 
期 中 分 析 了 各 种 三 角 剂 分 方法 。 

口 N. Snavely、S.M. Seitz 和 R. Szeliski 于 2008 年 在 Modeling the World from Internet Photo 
Collections by in International Journal of Computer Vision 第 80 卷 第 2 期 中 介绍 了 通过 光束 
调整 进行 大 规模 三 维 重建 的 方法 。 











11.5 ”计算 立体 图 像 的 深度 


人 类 用 两 只 眼睛 观察 三 维 世 界 ， 装 上 两 台 相 机 后 ， 机 咒 也 可 以 看 到 三 维 世界 ,这 就 是 立体 视 
觉 。 在 同一 个 设备 上 安装 两 台 相 机 ， 让 它们 观察 同一 个 场景 , 并且 两 者 之 间 有 固定 的 基线 ( 即 相 
机 之 间 的 距离 )， 就 构成 了 一 个 立体 视觉 装置 。 本 闻 将 介绍 如 何 利用 立体 图 像 计 算 视 图 间 的 密集 
对 应 计算 出 深度 图 。 

















11.5.1 ”准备 工作 


一 个 立体 视觉 系统 通常 需要 两 台 并 排 的 相机 , 并 且 都 对 准 同一 个 场景 。 下 面 是 一 个 立体 视觉 
系统 的 示意 图 ， 其 中 两 台 相 机 完全 对 齐 。 


























在 这 种 理想 情况 下 , 两 台 相 机 之 间 只 有 水 平方 向 的 平移 , 因此 它们 的 所 有 对 极 线 都 是 水 平方 
向 的 。 这 意味 着 所 有 关联 点 的 y 坐 标 都 是 相同 的 ， 只 需要 在 一 维 的 线条 上 寻找 匹配 项 即 可 。 关 联 
点 x 坐标 的 差 值 则 取决 于 点 的 深度 。 无 穷 远 处 的 点 对 应 图 像 点 的 坐标 相同 ， 都 是 (x, y)， 而 它们 离 
装置 越 近 ,x 坐标 的 差 值 就 越 大 。 这 种 现象 可 以 在 投影 方程 中 反映 出 来 。 如 果 两 台 相机 之 间 只 有 
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水 平方 向 的 平移 ， 第 二 人 台 ( 右 侧 ) 相机 的 投影 方程 就 变 为 : 
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为 了 简化 ， 我 们 假定 图 像 为 正方 形 ， 两 台 相机 的 标定 参数 相同 。 这 时 计算 差 值 + -x' ( 注意 
要 除 以 s 以 符合 齐 次 坐标 系 )， 并 分 离 出 z 坐标 ， 可 得 到 : 
(7x) 


B 





ZS 


这 个 (x 一 x) 就 是 视差 。 要 计算 立体 视觉 系统 的 深度 图 ， 就 必须 计算 每 个 像素 的 视差 。 下 面 将 


介绍 具体 方法 。 


11.5.2 ”如 何 实现 

前 面 讲 的 理想 配置 在 实际 应 用 中 很 难 实现 。 即 使 对 立体 视觉 装置 的 相机 精确 定位 , 也 难免 有 
一 些 额外 的 平移 和 旋转 。 不 过 好 在 可 以 对 图 像 进 行 矫正 ， 得 到 水 平方 向 的 极 线 。 具 体 方法 是 用 某 
种 算法 ， 例 如 上 一 章 的 鲁 棒 匹 配 算法 ,计算 立体 视觉 系统 的 基础 矩阵 。 下 面 是 对 两 个 立体 图像 应 
用 该 算法 的 情况 〈 画 出 了 部 分 对 极 线 )。 






































转 :A Stereo pair 





OpenCV 提供 了 一 个 矫正 函数 ， 它 利用 单 应 变换 将 每 个 相机 的 图 像 平面 投影 到 完全 对 齐 的 虚 
拟 平面 上 。 这 个 变换 过 程 使 用 了 一 批 匹配 点 和 一 个 基础 矩阵 。 然 后 用 这 些 单 应 矩阵 变换 图 像 : 








// 计算 单 应 变换 矫正 量 

AT 

cv::stereoRectifyUncalibrated(pointsl, points2, 
fundamental, 
imagel.size(), hl, nh2); 
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// 用 变换 实现 图 像 矫 正 
cv::Mat rectifiedql: 
cvV: :warpPerspective(imagel, rectifiedl1, hl, imagel.size()); 
cv::Mat rectified2; 
Cv: :warpPerspective(image2, rectified?2, h2, imagel.size()); 


这 是 经 过 矫正 的 图 像 对 。 











国 Rectified Stereo pair 

















接 下 来 就 可 以 调用 相关 的 方法 计算 视差 图 了 ， 调 用 时 相机 和 水 平 对 极 线 都 是 平行 的 : 


// 计算 视差 
cv::Mat disparity; 
Cv::Ptr<cv::StereoMatcher> pStereo = 
CVv::StereoSGBM: :create(0， // 最 小 视差 
32，// 最 大 视差 
5); // 块 的 大 小 


pStereo->compute (rectified1l, rectified2, disparity); 


下 图 显示 了 计算 得 到 的 视差 图 , 亮 的 地 方 表示 视差 大 。 而 根据 前 面 的 介绍 , 视差 大 的 地 方 表 
示 物 体 的 距离 较 近 。 





国 $ Disparity Map > 口 XxX 





计算 视差 的 质量 主要 取决 于 场景 中 不 同 物体 的 分 布 情况 。 反 差 较 大 的 区 域 比较 容易 准确 匹 
配 ， 因 而 计算 得 到 的 视差 也 更 加 精确 。 另 外 ， 基 线 越 大 ， 能 检测 到 的 深度 值 范围 也 越 大 。 但 是 扩 
大 基线 后 ， 视 差 的 计算 过 程 会 更 加 复杂 ， 可 靠 性 也 会 降低 。 
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11.5.3 ”实现 原理 
计算 视差 的 关键 是 像素 匹配 。 前 面 提 过 ， 如 果 图 像 经 过 正确 的 矫正 ， 匹 配 时 就 只 需 在 图 像 的 























幅 图 像 中 的 所 有 像素 与 另 一 幅 图 像 的 像素 进行 匹配 。 


这 样 做 的 难度 ， 比 从 图 像 中 选取 少量 特殊 点 并 从 另 一 幅 图 像 中 找到 匹配 点 的 难度 更 大 。 所 以 
说 视差 计算 是 一 个 非常 复杂 的 过 程 ， 通 常 包含 以 下 四 个 步骤 。 


(1) 计算 量 很 大 的 匹配 过 程 。 
(2) 计算 量 很 大 的 聚合 过 程 。 
(3) 计算 视差 并 优化 。 

(4) 细 化 结果 。 


下 面 详细 说 明 这 四 个 步骤 。 


计算 像素 视差 的 过 程 , 实际 上 就 是 在 立体 视觉 装置 中 找 出 一 对 匹配 的 点 。 求解 最 佳 视差 图 是 
一 个 需要 不 断 优化 的 过 程 。 在 匹配 两 个 点 时 ,必须 计算 出 特定 矩阵 的 匹配 代价 。 这 个 过 程 可 能 是 
简单 的 求 绝对 值 ， 也 可 能 是 计算 强度 、 色 彩 或 梯度 的 均 方 差 。 在 搜寻 最 佳 结 果 时 ,通常 要 在 一 片 
区 域 上 聚合 得 到 匹配 代价 ， 以 应 对 局 部 不 确定 性 带 来 的 噪声 ; 然后 ， 用 能 量 函 数 ( 包括 平滑 视差 
图 、 处 理 可 能 出 现 的 目标 遮挡 以 及 强制 唯一 性 约束 等 ) 得 到 全 局 视差 图 ; 最 后 ， 做 后 期 处 理 以 优 
化 视差 结果 ， 例 如 检测 平面 区 域 、 检 测 深度 中 断 等 。 

OpenCV 中 有 很 多 计算 视差 的 方法 ， 这 里 使 用 了 cv: :StereoSGBM 方法 。 最 简单 的 方法 是 基 
于 块 匹 配 的 cv: :StereoBM。 

最 后 需要 指出 的 是 ， 如 果 进 行 了 完整 的 标定 过 程 , 矫正 结果 就 能 更 加 精确 。 这 时 可 以 在 同一 
标定 模式 下 组 合 使 用 cv: :stereocalibrate 和 cv: :stereoRectify 图 数 。 矫正 映射 会 计算 
新 的 相机 投影 矩阵 ， 而 不 是 简单 的 单 应 变换 。 












































































































































11.5.4 “参阅 








口 D. Scharstein 和 RR. Szeliski 于 2002 年 发 表 在 International Journal of Computer Vision 第 47 卷 
的 文章 “A Taxonomy and Evaluation of Dense two-Frame Stereo Correspondence Algorithms” 

是 视差 计算 方面 的 经 典 论文 。 

口 H. Hirschmuller 于 2008 年 发 表 在 IEEE Transactions on Pattern Analysis and Machine Intelligence 
第 30 卷 第 2 期 第 328 页 至 第 341 页 的 论文 “Stereo processing by semiglobal matching and 
mutual information” 介 绍 了 本 节 采 用 的 视差 计算 方法 。 





处 理 视 频 序 列 








本 章 包括 以 下 内 容 : 


口 读 取 视 频 序列 ; 

口 处 理 视 频 帧 ; 

口 写 入 视频 帧 ; 

口 提取 视频 中 的 前 景物 体 。 








12.1 简介 











视频 信号 是 重要 的 视觉 信息 来 源 。 视 频 由 一 系列 图 像 构成 , 这 些 图 像 称 为 帧 , 帧 是 以 国定 的 
时 间 间 隔 获取 的 〈 称 为 帧 速率 ， 通 常用 帧 /秒表 示 )， 据 此 可 以 显示 运动 中 的 场景 。 随 着 高 性 能 计 
算 机 的 出 现 , 现在 已 经 能 够 对 视频 序列 进行 高 级 的 视觉 分 析 , 被 分 析 的 帧 速率 可 以 接近 甚至 超过 
实际 视频 的 帧 速率 。 本 章 将 介绍 如 何 读 取 、 处 理 和 存储 视频 序列 。 

如 果 从 视频 序列 中 提取 出 独立 的 帧 ,就 可 以 对 其 应 用 本 书 介绍 的 各 种 图 像 处 理 函 数 了 。 此 外 ， 


我 们 还 将 学 习 对 视频 序列 做 时 序 分 析 的 算法 , 即 比较 相 邻 的 帧 并 根据 时 间 累 计 图 像 统计 数据 ， 以 
提取 前 景物 体 。 


























12.2 ” 读 取 视频 序列 


要 处 理 视频 序列 ， 首 先 要 读 取 每 个 帧 。OpenCYV 提供 了 一 个 便于 使 用 的 框架 来 提取 帧 ， 帧 的 
来 源 可 以 是 视频 文件 ， 也 可 以 是 USB 或 卫 摄像 机 。 本 节 将 介绍 它 的 用 法 。 














12.2.1 ”如何 实现 


总 的 来 说 ， 要 从 视频 序列 读 取 帧 ， 只 需 创建 一 个 cv: :Viaeocapture 类 的 实例 ， 然 后 在 一 
个 循环 中 提取 并 读 取 每 个 视频 帧 即 可 。 下 面 这 个 基本 的 main 函数 显示 了 视频 序列 中 的 帧 : 
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int main() 
{ 
// 打开 视频 文件 
Cv::VideoCapture capture ("bike.avi"); 
// 检查 视频 是 否 成 功 打 开 
if (!capture.isOpened()) 
return 1; 


// 取得 帧 速率 
double rate= capture.get (CV_CAP_PROP_PFPS) ; 


bool Stop (false) ; 
cv::Mat frame; // 当前 视频 帧 
cv: :namedWindow ("Extracted Frame"); 


// 根据 帧 速率 计算 帧 之 间 的 等 待 时 间 ， 单 位 为 ms 
int delay= 1000/rate; 


// 循环 遍历 视频 中 的 全 部 帧 
while (!stop) { 


// 读 取 下 一 帧 (如果 有 ) 
if (!capture.read (frame)) 
break; 


cv::imshow ("Extracted Frame",frame); 


// 等 待 一 段 时 间 ， 或 者 通过 按键 停止 
if (cv::waitKey (delay)>=0) 
stop= true; 


上 


// 关闭 视频 文件 

// 不 是 必须 的 ， 因 为 类 的 析 构 耶 数 会 调用 
capture.release(); 

return 0; 


} 
程序 会 显示 一 个 播放 视频 的 窗口 ， 如 下 图 所 示 。 











看 ;Extracted Frame 
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12.2.2 ”实现 原理 


只 需 指 定 视频 文件 名 即 可 打开 视频 ， 可 以 在 cvV::VideoCapture 对 象 的 构造 函数 中 指定 文 
件 名 。 如 果 cv: :Videocapture 对 象 已 经 创建 ， 也 可 以 使 用 它 的 open 方法 。 成 功 打开 视频 后 
(可 用 isopenead 方法 验证 )， 就 可 以 开始 提取 帧 。 也 可 使 用 get 方法 并 采用 正确 的 标志 ， 通 过 
cv: :VideoCapture 对 象 查询 视频 文件 的 有 关 信 息 。 在 前 面 的 例子 中 , 我 们 用 cv_CAP_PROP_FPS 
标志 获得 了 帧 速率 。 因 为 它 是 一 个 通用 函数 ,所 以 即使 有 的 时 候 需 要 其 他 类 型 ， 它 也 总 会 返回 一 
个 double 类 型 的 数值 。 可 用 下 面 的 方法 获得 视频 文件 的 总 帧 数 (整数 ): 


long t= static cast<long>( capture.get (CV_CAP_PROP_FRAME_COUNT ) ) ; 
要 了 解 视频 中 能 获得 的 信息 类 型 ， 请 查阅 OpenCV 文档 提供 的 各 种 标志 。 


此 外 ,还 可 以 用 set 方法 输入 Cv: :VideoCapture 实例 的 参数 ,例如 可 以 用 CV_CAP_PROP_ 
POS_FRAMES 标志 让 视频 跳 转 到 指定 的 帧 : 
// 跳 转 到 第 100 帧 


double position= 100.0; 
capture.set (CV_CAP_PROP_POS_FRAMES, position); 


还 可 以 用 CV_CAP_PROP_POS_MSEC 以 毫秒 为 单位 指定 位 置 ， 或 者 用 CV_CAP_PROP_POS 
AVI_RATIO 指定 视频 内 部 的 相对 位 置 ( 0.0 表示 视频 开始 位 置 ，1.0 表示 结束 位 置 )。 如 果 参 数 设 
置 成 功 ， 函 数 会 返回 true。 对 于 一 个 特定 的 视频 来 说 ， 参 数 能 否 读 取 或 设置 在 很 大 程度 上 取决 
于 用 来 压缩 和 存储 视频 序列 的 编 解码 器 。 如 果 某 些 参数 不 能 使 用 ， 可 能 就 是 编 解 码 器 造成 的 。 


成 功 打 开 视 频 后 ， 可 以 像 前 面 那样 反复 调用 read 方法 ， 按 顺序 访问 每 一 帧 。 也 可 调用 重 载 
的 读 取 运算 子 ， 作 用 完全 一 样 : 



















































































capture >> frame; 
还 能 使 用 这 两 个 基本 方法 : 


capture.grab() 
capture.retrieve (frame); 


注意 , 我们 在 显示 每 一 帧 时 都 采用 了 延 时 方法 ， 那 就 是 cv: :waitKey 函数 。 这 里 采用 的 延 
时 时 长 取决 于 视频 的 帧 速率 ( 假设 fps 为 每 秒 的 帧 数 ，1/ fps 就 是 两 个 帧 之 间 的 毫秒 数 )。 可 以 
通过 修改 这 个 数值 ， 让 视频 慢 进 或 快 进 。 播 放 视 频 时 很 重要 的 一 点 是 , 采用 的 延 时 时 长 要 保证 窗 
口 有 足够 的 时 间 进 行 刷新 〈 因为 这 是 一 个 低 优 先 级 的 进程 ， 如 果 CPU 太 忙 就 不 会 刷新 )。 使 用 
cv: :waitKey 函数 后 , 就 可 以 通过 按 任 意 键 中 断 这 个 读 取 过 程 。 这 时 , 函数 会 返回 按键 的 ASCII 
码 。 注 意 ， 如 果 cv: :waitKey 函数 中 指定 的 延 时 为 0， 那么 它 将 永远 等 待 下 去 ， 直 到 用 户 按 下 
一 个 键 。 这 种 方法 非常 适用 于 需要 通过 逐 帧 检查 以 跟踪 一 个 过 程 的 情况 。 


最 后 的 语句 调用 release 方 法 关闭 视频 文件 ,不 过 这 并 不 是 必须 的 ,因为 在 cv: :VideoCcapture 
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的 析 构 函数 中 也 会 调用 release。 


有 一 点 需要 特别 注意 , 计算 机 中 必须 安装 有 相关 的 编 解码 器 ,才能 打开 指定 的 视频 文件 ， 否 
则 cv: :Videocapture 将 无 法 对 文件 进行 解码 。 一 般 来 说 ， 如 果 用 视频 播放 器 (例如 Windows 
Media Player ) 可 以 打开 该 视频 文件 ， 那 么 OpenCV 就 能 读 取 它 。 





12.2.3 扩展 阅读 


你 还 可 以 连接 摄像 机 和 计算 机 , 读 取 摄像 机 ( 例如 USB 摄像 机 ) 生 成 的 视频 流 。 只 需 在 open 
函数 中 指定 一 个 ID ( 整数 ) 取代 原来 的 文件 名 即 可 。ID 为 0 表示 打开 默认 摄像 机 。 这 种 情况 下 
就 必须 用 cv: :waitKey 函数 来 终止 处 理 过 程 ， 因 为 摄像 机 视频 流 的 读 取 过 程 是 不 会 结束 的 。 


最 后 ， 也 可 以 装载 Web 上 的 视频 。 这 需要 提供 一 个 正确 的 网 址 ， 例 如 : 











CVv::VideoCapture capture("http://www.laganiere.name/bike.avi"); 


12.2.4 ”参阅 


口 12.4 节 将 更 详细 地 介绍 视频 编 解码 器 。 
口 网 站 http:/ftmpeg.org/ 上 有 音频 /视频 读 取 、 记 录 、 转 换 和 成 流 的 完整 源码 和 路 平台 解 
决 方案 。 





12.3 ”处 理 视频 帧 


本 节 的 目标 是 对 视频 序列 中 的 每 一 帧 应 用 几 个 处 理 函 数 。 我 们 将 创建 一 个 自 定 义 类 ， 封 装 
OpenCy 的 视频 捕获 框架 。 可 以 在 这 个 类 中 指定 一 个 函数 , 每 次 提取 到 新 的 帧 时 就 会 调用 该 函数 。 






































12.3.1 如何 实现 


我 们 要 指定 一 个 函数 〈 回调 函数 )， 让 视频 序列 的 每 一 帧 都 调用 它 。 该 函数 定义 为 输入 一 个 
cv: :Mat 实例 ， 输 出 一 个 处 理 完毕 的 帧 。 因 此 ， 框 架 中 有 效 的 回调 函数 必须 遵循 以 下 签名 : 


void processFrame (cv::Mat& img, cv::Maté& out); 2 


这 是 一 个 简单 的 处 理 函 数 ， 它 的 功能 是 计算 输入 图 像 的 Canny 边缘 : 


void canny (cv::Maté& img, cv::Maté& out) { 
// 转换 成 灰 度 图 像 
if (img.channels ()==3) 
Cv: :CVvtColor (img,out,cv::COLOR_ BGR2GRAY); 
// 计算 Canny 边缘 
cv::Canny (out ,out ,100,200) ; 
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// 反 转 图 像 
cv::threshold(out,out,128,255,cv::THRESH_BINARY_INV); 


} 

自 定义 类 VideoProcessor 完整 地 封装 了 视频 处 理 任务 。 使 用 这 个 类 的 程序 可 以 创建 类 的 
实例 、 指 定 输入 视频 文件 、 指 定 回 调 函 数 ， 然 后 开始 处 理 。 这 些 步 又 在 编程 时 都 是 用 这 个 自 定 义 
类 实现 的 ， 代 码 如 下 所 示 : 


// 创建 实例 

VideoProcessor processor; 

// 打开 视频 文件 

processor.setInput ("bike.avi"); 

// 声明 显示 视频 的 窗口 
processor.displayInput ("Current Frame"); 
processor.displayOutput ("Output Frame"); 
// 用 原始 帧 速率 播放 视频 

processor.setDelay (1000./processor.getFrameRate()); 
// 设置 处 理 帧 的 回调 未 数 
processor.setFrameProcessor (canny); 

// 开始 处 理 


processor.run(); 
运行 这 段 代码 , 会 在 两 个 窗口 中 播放 输入 图 像 和 输出 结果 ,播放 速率 为 原始 帧 速率 ( 因为 用 
setDelay 方法 做 了 延 时 处 理 )。 如 果 输 入 上 节 用 于 显示 帧 的 视频 ， 输 出 窗口 将 如 下 所 示 。 











看 ;Output Video 














12.3.2 ”实现 原理 


跟前 面 一 样 ， 我们 要 创建 一 个 封装 视频 处 理 算 法 通用 功能 的 类 。 类 中 包含 一 些 成 员 变量 , 用 
于 控制 处 理 视频 帧 的 各 个 参数 : 





























class VidqeoProcessor { 


private: 
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// OpenCV 视频 捕获 对 象 
Cv::VideoCapture capture; 

// 处 理 每 一 帧 时 都 会 调用 的 回调 子 数 

void (*process) (cvV::Mat&，cVv: :Mat&) ; 
// 布尔 型 变量 ， 表 示 该 回调 函数 是 否 会 被 调用 
Bool Ga 下 工区: 

// 输入 窗口 的 显示 名 称 

std::string windowNameInput; 

// 输出 窗口 的 显示 名 称 

std::string windowNameOutput; 

// 帧 之 间 的 延 时 

int delay; 

// 已 经 处 理 的 帧 数 

long fnumber; 

// 达到 这 个 帧 数 时 结束 

long frameToStop 

// 结束 处 理 

bool stop; 


第 一 个 成 员 变 量 是 cv: :VideoCapture 对 象 。 第 二 个 属性 是 函数 指针 brocess, 它 指向 一 
个 回调 函数 。 可 以 用 对 应 的 设置 方法 指定 这 个 函数 : 
// 设置 针对 每 一 帧 调用 的 回调 函数 


void setFrameProcessor(void (*frameProcessingCallback) 
(cv::Mat&, cv::Mat&)) { 


























process= frameProcessingCallback; 


} 
用 下 面 的 方法 打开 视频 文件 : 


// 设置 视频 文件 的 名 称 


bool setInput (std::string filename) { 


fnumber= 0; 

// 防止 已 经 有 资源 与 VideoCapture 实例 关联 
capture.release(); 

// 打开 视频 文件 

return capture.open (filename); 


} 
显示 经 过 处 理 的 帧 通常 会 比较 有 趣 ， 因 此 用 两 个 方法 来 创建 显示 窗口 : 


// 用 于 显示 输入 的 帧 
void displayInput (std::string wn) { 























windowNameInput= wn; 
cv: :namedWindow (windowNameInput); 


} 


// 用 于 显示 处 理 过 的 帧 
void displayOutput (std::string wn) { 
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windowNameOutput= wn; 
cv: :namedWindow (windowNameOutput); 


} 
主 函 数 名 为 run， 它 包含 了 提取 帧 的 循环 : 


// 抓 取 (并 处 理 ) 序列 中 的 帧 
void run() { 

// 当前 帧 

cV: :Mat frame; 

// 输出 帧 


CV: :Mat output; 


// 如 果 没 有 设置 捕获 设备 
if (!isOpened()) 
return; 


stop= false; 
while (!isStopped()) { 

// 读 取 下 一 帧 (如 果 有 ) 

if (!readNextFrame (frame) ) 
break; 

// 显示 输入 的 帧 

if (windowNameInput.length()!=0) 
cv::imshow (windowNameInput, frame); 


// 调用 处 理 函 数 
二 下 区 0 人 吉本 汪 在 才 兴 


// 处 理 帧 
process (frame, output); 
// 递增 帧 数 


fnumber+t+; 


} 

else { 
// 没有 处 理 
output= frame; 


} 


// 显示 输出 的 帧 
if (windowNameOutput.length()!=0) 
cv::imshow (windowNameOutput,output); 
// 产生 廷 时 
if (delay>=0 && cv::waitKey (delay)>=0) 
stopIt(); 


// 检查 是 否 需要 结束 
if (frameToStop>=0 && getFrameNumber ()==frameToStop) 
stopIt(); 
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// 结束 处 理 
void stopIt() { 
stop= true; 


} 


// 处 理 过 程 是 否 已 经 停止 ? 
bool isStopped() { 
return stop; 


} 


// 捕获 设备 是 否 已 经 打开 ? 
bool isOpened() { 
capture.isOpened(); 


} 


// 设置 帧 之 间 的 廷 时 ， 

// 0 表示 每 一 帧 都 等 待 ， 

// 负数 表示 不 延 时 

void setDelay (int d) { 
delay= 4d; 

} 


这 个 方法 使 用 了 一 个 用 于 读 取 帧 的 private 方法 : 


// 取得 下 一 帧 ， 

// 可 以 是 视频 文件 或 者 摄像 机 

bool reaqNextFrame (CV: :Mat& frame) { 
return capture.readq(frame) ; 


} 


run 方法 先 调用 类 cv: :VideoCapture 的 read 方法 , 然后 执行 一 系列 操作 。 但 是 在 执行 之 
前 ， 要 先 检查 该 操作 是 否 需 要 执行 。 只 有 指定 了 输入 窗口 的 名 称 (用 displayInput 方法 ), 才 
会 显示 输入 窗口 ; 只 有 指定 了 回调 函数 (用 setFrameProcessor 方法 ), 才 会 运行 回调 函数 ; 
只 有 定义 了 输出 窗口 的 名 称 (用 displayoutput )， 才 会 显示 输出 窗口 ; 只 有 指定 了 延 时 (用 
set Delay )， 才 会 执行 延 时 ; 最 后 ， 如 果 定 义 了 停止 帧 (用 stopAtFrameNo )， 就 需要 检查 当 
前 的 帧 数 。 


你 或 许 还 希望 打开 并 播放 视频 文件 〈 不 调用 回调 函数 )， 所 以 我 们 准备 了 两 个 方法 ， 以 指定 
是 否 需要 调用 回调 函数 : 


// 需要 调用 回调 函数 Process 
void callProcess() { 
callIt= true; 


} 





















































// 不 需要 调用 回调 函数 process 

void dontCallProcess() { 
cecallIt= false; 

} 
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最 后 可 指定 是 否 需 要 在 处 理 完 一 定数 量 的 帧 后 就 结 





void stopAtFrameNo(long frame) { 
frameToStop= frame; 


} 


// 返回 下 一 帧 的 编号 

long getFrameNumber() { 
// 从 捕获 设备 获取 信息 
long fnumber= static_ cast<long>(capture.get (CV_CAP_PROP_POS_FRAMES) ) 
return fnumber; 


} 


类 中 还 包含 了 一 些 获取 方法 和 设置 方法 ， 这 些 方法 基本 上 只 是 封装 了 CVv: :VideoCapture 
框架 的 常规 方法 set 和 get。 




















12.3.3 扩展 阅读 
使 用 viaeoProcessor 类 有 助 于 视频 处 理 模块 的 部 署 。 它 还 可 以 做 几 项 改进 。 
1. 处 理 图 像 序列 


输入 序列 有 时 是 一 批 独立 存储 的 图 像 。 简单 地 改动 一 下 这 个 类 , 就 可 以 适应 这 种 输入 一 一 只 
需要 添加 一 个 存储 了 图 像 文件 名 向 量 和 对 应 的 迭代 带 的 成 员 变 量 : 


// 作为 输入 对 象 的 图 像 文 件 名 向 量 

std: :vector<std::string> images; 

// 图 像 向 量 的 选 代 器 

std: :Vector<Stdq: :string>: :const_iterator itImg; 


用 新 的 set Input 方法 指定 需要 读 取 的 文件 : 


// 设置 输入 图 像 的 向 量 

bool setInput (const std::vector<std::string>& imgs) { 
fnumber= 0; 
// 防止 已 经 有 资源 与 VideoCapture 实例 关联 
capture.release(); 























// 将 这 个 图 像 向 量 作为 输入 对 象 
images= imgs; 

itImg= images.begin(); 
return true; 


} 
isopenead 方法 现在 变 成 了 这 样 : 


// 捕获 设备 是 否 已 经 打开 ? 
bool isOpened() { 
return capture.isOpened() || !images.empty(); 


} 
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最 后 需要 修改 私有 方法 readNextFrame, 1 让 它 能 根据 输入 内 容 ， 选择 从 视频 读 取 还 是 从 文 
件 名 向 量 读 取 。 判断 方法 是 查看 图 像 文件 名 向 量 是 否 为 空 ， 如 不 为 空 就 表明 输入 是 图 像 序列 。 调 
用 setInput 并 传 入 视频 文件 名 将 清空 该 向 量 : 





























// 取得 下 一 帧 
// 可 以 是 视频 文件 、 es 图 像 向 量 
bool readNextFrame (cv::Mat& frame) { 
if (images.size()==0) 
return capture.read (frame); 
else { 
if (itImg != images.end()) { 
frame= cv::imread(*itImg); 
itImg++; 
return frame.data != 0; 
} else 


return false; 
} 
} 


2. 使 用 帧 处 理 类 
在 面向 对 象 的 编程 中 ,最 好 使 用 帧 处 理 类 而 不 是 帧 处 理 函 数 。 实 际 上 ，, 在 定义 视频 处 理 算法 


时 ， 使 用 类 能 提供 更 大 的 灵活 性 。 我 们 可 以 定义 一 个 接口 ,在 VideoProcessor 内 部 使 用 的 每 
个 类 都 需要 实现 该 接口 : 








// 帧 处 理 的 接口 
class FrameProcessor { 
public: 
// 处 理 方法 
Virtual void process(cv:: Mat &input, cv:: Mat &output)= 0; 


J} 


你 可 在 设置 方法 中 为 VideoProcessor 框架 输入 一 个 FrameProcessor 实例 , 并 把 这 个 实 
例 赋 给 新 增 的 成 员 变量 frameProcessor, 这 个 成 员 变 量 是 指向 FrameProcessor 对 象 的 指针 : 





// 设置 实现 FrameProcessor 接口 的 实例 
void setFrameProcessor (FrameProcessor* frameProcessorPtr) { 


// 使 回调 场 数 失 效 


process= 0; 
// 这 个 就 是 即将 被 调用 的 帧 处 理 实例 


frameProcessor= frameProcessorpPtr; 
callProcess (); 





} 


在 指定 帧 处 理 实例 后 , 要 让 之 前 设置 的 帧 处 理 函 数 失 效 。 如 果 指 定 的 是 一 个 帧 处 理 函 数 , 也 
需要 让 之 前 设置 的 实例 失效 。 run 方法 中 的 while 循环 也 要 做 相应 的 修改 : 
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while (!isStopped()) { 


// 读 取 下 一 帧 (如 果 有 ) 
if (!readNextFrame (frame) ) 
break; 


// 显示 输入 的 帧 
if (windowNameInput.length()!=0) 
cv::imshow (windowNameInput, frame); 


// ** 调用 处 理 函 数 或 方法 ** 
Tf a (CALLE) 


// 处 理 帧 
if (process) // 如 果 是 回调 水 数 
process (frame, output); 
else if (frameProcessor) 
// 如 果 是 类 的 接口 
frameProcessor->process (frame,output); 
// 递增 帧 数 
fnumber+t+; 
} 
else { 
output= frame; 
} 
// 显示 输出 的 帧 
if (windowNameOutput.length()!=0) 
cv::imshow (windowNameOutput,output); 
// 产生 延 时 
if (delay>=0 && cv: :waitKey (delay)>=0) 
stopIt(); 
// 检查 是 否 需要 结束 
if (frameToStop>=0 && getFrameNumber ()==frameToStop) 
stoprtt)s 


12.3.4 ”参阅 


口 13.2 节 将 介绍 如 何 使 用 FrameProcessor 类 接口 。 
口 GitHub 上 的 项 目 https://github.com/asolis/vivaVideo 展 示 了 一 个 更 复杂 的 框架 ， 在 OpenCV 
中 用 多 线程 处 理 视频 。 














12.4 写 入 视频 帧 


前 面 几 节 介绍 了 如 何 读 取 视 频 文 件 并 提取 帧 ， 本 节 将 介绍 如 何 写 入 帧 并 创建 视频 文件 。 这 
样 ， 典 型 的 视频 处 理 过 程 就 完成 了 : 读 取 输 入 视频 流 ， 处 理 其 中 的 帧 ， 然 后 在 新 的 视频 文件 中 
存储 结果 。 
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12.4.1 ”如何 实现 


OpenCV 用 cv: :VideoWriter 类 写 视频 文件 。 构 建 实例 时 需 指 定 文件 名 、 播 放 视频 的 帧 速 
率 、 每 个 帧 的 尺寸 以 及 是 否 为 彩色 视频 : 

















writer.open (outputFile, // 文件 名 
codec, // 所 用 的 编 解码 器 
framerate, // 视频 的 帧 速率 
frameSize, // 帧 的 尺寸 
isColor); // 彩色 视频 ? 


另外 ， 必 须 指明 保存 视频 数据 的 方式 ， 即 coaqec 参数 。 本 节 最 后 将 对 此 进行 详细 探讨 。 
打开 视频 文件 后 ， 可 以 通过 反复 地 调用 write 方法 ， 在 视频 文件 中 加 入 帧 : 
writer.write(frame); // 在 视频 文件 中 加 入 帧 


简单 地 改动 上 节 的 VideoProcessor 类 ， 就 可 以 增加 用 cv: :Viaqeowriter 类 写 视 频 文件 
的 功能 。 下 面 是 一 个 简单 的 程序 ， 包 含 读 视频 、 处 理 视频 和 把 结果 写 入 视频 文件 的 功能 : 


// 创建 实例 


VideoProcessor processor; 
































// 打开 视频 文件 

processor.setInput ("bike.avi"); 
processor.setFrameProcessor (canny); 
processor.setOutput ("bikeOut .avi"); 
// 开始 处 理 


processor.run(); 

跟 上 节 一 样 , 要 让 用 户 能 选择 把 帧 写 人 独立 的 图 像 。 框 架 中 采用 的 命名 规则 由 前 级 和 固定 位 
数 的 数字 组 成 。 在 存储 帧 的 时 候 ， 这 个 数字 会 自动 递增 。 为 了 把 输出 结果 保存 成 一 系列 图 像 ， 需 
要 把 上 面 的 代码 换 成 : 


processor.setOutput ("pikeOut"， // 前 级 
".jpg", // 扩展 名 
33 // 数字 的 位 数 
0) // 开始 序号 





有 了 这 个 位 数 之 后 , 调用 时 就 会 创建 bikeOut000.jpg、bikeOut001.jpg 和 bikeOut002.jpg 等 
文件 了 。 





12.4.2 ”实现 原理 


现在 介绍 如 何 修改 VideoProcessor 类 ,使 它 能 写 入 视频 文件 ,首先 要 添加 一 个 cv: :VideoWriter 
类 型 的 成 员 变 量 (还 有 几 个 其 他 属性 ): 
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class VideopProcessor { 
private: 


// OpenCV 写 视频 对 象 

CVv: :Videowriter writer; 
// 输出 文件 名 

std::string outputFile; 
// 输出 图 像 的 当前 序号 

int currentIindex; 

// 输出 图 像 文件 名 中 数字 的 位 数 
了 末世 droltey 

// 输出 图 像 的 扩展 名 


std::string extension; 
用 一 个 额外 的 方法 指定 (并 打开 ) 输出 视频 文件 : 


// 设置 输出 视频 文件 

// 上 默认 情况 下 会 使 用 与 输入 视频 相同 的 参数 

bool setOutput (const std::string &filename, int codec=0, 
double framerate=0.0, bool isColor=true) { 





outputFile= filename; 
extension.clear(); 
if (framerate==0.0) 
framerate= getFrameRate(); // 与 输入 相同 


Ghar 4] 
// 使 用 与 输入 相同 的 编 解码 器 
if (codec==0) { 

Codec= getCodec(c); 


} 


// 打开 输出 视频 


return writer.open (outputFile, // 文件 名 
codec, // 所 用 的 编 解 码 器 
framerate, // 视频 的 帧 速率 
getFrameSize()，// 帧 的 尺寸 
isColor); // 彩色 视频 ? 


} 
这 是 名 为 writeNextFrame 的 私有 方法 处 理 帧 的 写 入 过 程 ( 写 入 到 视频 文件 或 一 系列 图 像 ): 


// 写 输出 的 帧 
// 可 以 是 视频 文件 或 图 像 组 
void writeNextFrame (cv::Mat& frame) { 

if (extension.length()) { // 写 入 到 图 像 组 











std::stringstream ss; 
// 组 合成 输出 文件 名 
ss << outputFile << std::setfill('0') 
<< std::setw(digits) 
<< currentIndex++ << extension; 
cv::imwrite(ss.str(),frame); 
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} else { 
// 写 入 到 视频 文件 
writer.write(frame); 
} 
} 


如 果 输 出 是 独立 的 图 像 文 件 ， 就 需要 一 个 额外 的 设置 方法 : 
// 设置 输出 为 一 系列 图 像 文件 


// 扩展 名 必须 是 .jpg 或 .bmp 
bool setOutput (const std::string &filename，// 前 级 




















const std::string &ext， // 图 像 文件 的 扩展 名 
int numberOfDigits=3, // 数字 的 位 数 
int startIndex=0) { // 开始 序号 


// 数字 的 位 数 必须 是 正 数 
if (numberOfDigits<0) 
return false; 


// 文件 名 和 常用 的 扩展 名 
outputFile= filename; 
extension= ext; 


// 文件 编号 方案 中 数字 的 位 数 
digits= numberOfDigits; 
// 从 这 个 序号 开始 编号 
currentIindex= startIndex; 


return true; 


} 
最 后 在 run 方法 的 视频 捕获 循环 中 添加 一 个 新 的 步 又 : 





while (!isStopped()) { 


// 读 取 下 一 帧 (如 果 有 ) 
if (!readNextFrame (frame)) 
break; 


// 显示 输入 帧 
if (windowNameInput.length()!=0) 
cv::imshow (windowNameInput, frame); 


// 调用 处 理 函 数 或 方法 
i 必 CallTtY) 汗 





// 处 理 帧 

if (process) 
process (frame, output); 

else if (frameProcessor) 
frameProcessor->process (frame, output); 

// 递增 帧 数 

fnumber+t+; 

} else { 
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output= frame; 


} 


// ** 写 入 到 输出 的 序列 ** 


if (outputFile.length()!=0) 
writeNextFrame (output); 

// 显示 输出 的 帧 

if (windowNameOutput.length()!=0) 
cv::imshow (windowNameOutput,output); 

// 产生 延 时 

if (delay>=0 && cvV: :waitKey (delay)>=0) 
stopIt(); 


// 检查 是 否 需 要 结 
if (frameToStop>=0 && getFrameNumber ()==frameToStop) 
StoOBTE():; 
} 
} 


12.4.3 扩展 阅读 


在 把 视频 写 入 文件 时 ， 需 要 使 用 一 个 编 解 码 器 。 编 解码 器 是 一 个 软件 模块 ,用 于 编码 和 解码 
视频 流 。 编 解码 器 定义 了 文件 格式 和 用 于 存储 信息 的 压缩 方案 。 很 明显 ,用 某 种 编 解 码 器 进行 编 
码 的 视频 , 必须 用 同一 种 编 解码 器 才能 解码 。 因 此 人 们 使 用 四 个 字符 的 代码 来 指定 一 种 编 解 码 器 。 
这 样 ， 软 件 工具 在 写 人 视频 文件 之 前 ， 需 要 先 读 取 这 个 四 字符 代码 ， 以 决定 采用 哪 种 编 解码 器 。 


































































































编 解 码 器 的 四 字符 代码 

顾名思义 ， 四 字符 代码 是 由 4 个 ASCII 字符 组 成 的 ， 拼 在 一 起 也 可 以 转换 成 一 个 整数 。 用 
cv: :VideoCapture 打开 视频 文件 , 然后 在 get 方法 中 使 用 cv: :CAP_PROP_FOURCC 标志 ,就 
能 得 到 该 视频 文件 的 代码 。 我 们 可 以 在 VideoProcessor 类 中 定义 一 个 方法 ， 返回 输入 视频 的 
四 字符 代码 : 

// 取得 输入 视频 的 编 解码 器 


int getCodec(char codec[4]) { 
// 本 方法 对 图 像 向 量 无 意义 











if (images.size()!=0) return -1; 
union { // 表示 四 字符 代码 的 数据 结构 
nt value; 


char codel[4]; 
} returned; 


// 取得 代码 
returned.value= static cast<int>(capture.get (cv::CAP_ PROP_FOURCC)); 
// 取得 四 个 字符 


codec[0]= returned.code[0] 
codec[1]= returned.code[1]; 
codec[2]= returned.code[2]; 
codec[3]= returned.codel3] 
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// 返回 代码 的 整数 值 
return returned.value; 


} 
get 方法 总 是 返回 一 个 aouple 型 数值 ， 后 者 随即 转换 成 整数 。 这 个 整数 就 是 代码 ,可 以 用 
union 数据 结构 从 这 个 代码 提取 出 四 个 字符 。 打 开 测 试用 的 视频 序列 ， 然 后 使 用 以 下 代码 : 


























char codec[4]; 

processor.getCodec (codec); 

std::cout << "Codec: " << codec[0] << codec[1] 
<< Codec[2] << codec[3] << std::endl; 


用 上 述 语句 可 得 到 这 个 结果 : 

Codec : XVID 

在 写 和 人 视频 文件 时 ， 必 须 用 四 字符 代码 指定 编 解码 器 。 这 就 是 cv: :VideoWriter 类 open 
方法 的 第 二 个 参数 。 你 可 以 使 用 与 输入 视频 相同 的 代码 ( 这 是 setoutput 方法 的 默认 选项 ); 也 
可 以 传人 值 -1, 该 方法 会 弹出 一 个 窗口 , 让 用 户 选 择 可 用 的 编 解码 器 。 窗 口中 列表 所 显示 的 就 是 
该 计算 机 中 已 经 安装 的 编 解码 器 。 选 中 某 个 编 解码 器 后 ， 它 的 代码 就 会 自动 传 给 open 方法 。 












































12.4.4 ”参阅 


口 网 站 https://www.xvid.com/ 提 供 了 基于 MPEG-4 视频 压缩 标准 的 开源 视频 编 解码 器 程序 
库 。Xvid 还 有 个 竞争 者 ， 名 为 DivX， 它 提供 了 专 有 但 免费 的 编 解码 器 和 软件 工具 。 
































12.5 提取 视频 中 的 前 景物 体 


本 章 的 内 容 是 读 、 写 和 处 理 视频 ， 目 的 是 分 析 完 整 的 视频 序列 。 本 节 将 通过 一 个 实际 案例 ， 
介绍 如 何 对 视频 序列 进行 时 序 分 析 ， 以 提取 运动 中 的 前 景物 体 。 实 际 上 , 用 固定 位 置 的 像 机 拍摄 
时 ， 背 景 部 分 基本 上 是 保持 不 变 的 。 这 种 情况 下 , 我们 关注 的 是 场景 中 的 移动 物体 。 为 了 提取 这 
些 前 景物 体 , 我 们 需要 构建 一 个 背景 模型 , 然后 将 模型 与 当前 帧 做 比较 , 检测 出 所 有 的 前 景物 体 。 
这 正 是 本 节 要 实现 的 内 容 。 前 景 提 取 是 智能 监控 程序 的 基本 步骤 。 

如 果 有 该 场景 的 背景 图 像 ( 即 没有 前 景物 体 的 帧 ) 供 我 们 使 用 , 那么 提取 当前 帧 的 前 景物 体 
就 会 非常 容易 ， 只 需要 比较 两 幅 图 像 即 可 : 

// 计算 当前 图 像 与 背景 图 像 之 间 的 差异 


cv::absdiff (backgroundImage,currentImage, foreground); 
每 个 差异 足够 大 的 像素 都 可 作为 前 景 像 素 。 但 是 在 大 多 数 情况 下 ， 背 景 图 像 是 很 难 获得 的 。 
保证 一 幅 图 像 中 没有 任何 前 景物 体 是 非常 困难 的 ， 而 且 这 种 情况 在 纷繁 的 场景 中 也 是 极 少 出 现 
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的 。 此 外 ， 由 于 光照 条 件 变化 ( 从 日 出 到 日 落 )、 背景 中 物体 的 增加 或 减少 ， 背 景 也 会 随 着 时 间 
产生 变化 。 


因此 有 必要 动态 地 构建 背景 模型 , 实现 方法 是 观察 该 场景 并 持续 一 段 时 间 。 如 果 我 们 假设 在 
每 个 像素 位 置 , 背景 在 绝 大 部 分 时 间 都 是 可 见 的 , 那么 建立 背景 模型 的 方法 就 很 简单 ， 只 需 计 算 
所 有 观察 结果 的 平均 值 即 可 。 但 这 种 做 法 其 实 并 不 可 行 。 首 先 , 在 计算 背景 之 前 需要 存储 大 量 的 
图 像 ; 其 次 ,在 为 计算 平均 值 而 累计 图 像 的 时 候 ， 并 没有 提取 到 前 景物 体 。 这 种 解决 方案 还 需要 
考虑 两 个 问题 : 为 了 计算 可 靠 的 背景 模型 ,需要 累计 何 时 的 、 多 少数 量 的 图 像 。 男 外 ,如 果 有 些 
图 像 中 的 某 个 像素 正在 监视 一 个 前 景物 体 ， 那 么 它们 就 会 对 计算 平均 背景 产生 很 大 的 影响 。 

更 好 的 策略 是 用 定时 更 新 的 方式 ,动态 地 构建 背景 模型 。 实 现 方法 是 计算 滑动 平均 值 ( 又 叫 
移动 平均 值 )。 这 是 一 种 计算 时 间 信 号 平均 值 的 方法 ,该 方法 还 考虑 了 最 新 收 到 的 数值 。 假 设 p， 
是 时 间 1 的 像素 值 ，yu 1 是 当前 的 平均 值 ， 那 么 要 用 下 面 的 公式 来 更 新 平均 值 : 
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其 中 参数 a 称 为 学 习 速率 , 它 决定 了 当前 值 对 计算 平均 值 有 多 大 影响 。 这 个 值 越 大 , 滑动 平 
均值 对 当前 值 变化 的 响应 速度 就 越 快 ; 但 如 果 学 习 速 率 太 大 , 缓慢 移动 的 物体 就 可 能 会 消失 在 背 
景 中 。 实 际 上 , 应 该 采用 多 大 的 学 习 速 率 在 很 大 程度 上 取决 于 场景 的 变化 速度 。 为 了 构建 背景 模 
型 ,必须 在 新 的 帧 到 达 时 对 每 个 像素 计算 滑动 平均 值 。 然后 就 可 以 根据 当前 图 像 与 背景 模型 之 间 
的 差异 ， 判 断 一 个 像素 是 否 为 前 景 像素 。 




















12.5.1 如何 实现 


创建 一 个 用 滑动 平均 值 动态 构造 背景 模型 的 类 , 并 通过 减法 运算 提取 前 景物 体 。 这 个 类 需要 
有 以 下 属性 : 


class BGFGSegmentor : public FrameProcessor { 











cv::Mat gray; // 当前 灰 度 图 像 
cv::Mat background; // 累积 的 背景 
cv: :Mat backImage; // 当前 背景 图 像 
cv::Mat foreground; // 前 景 图 像 





// 累计 背景 时 使 用 的 学 习 速 率 


double learningRate; 


int threshold; // 提取 前 景 的 阅 值 
主要 处 理 过 程 包括 将 当前 帧 与 背景 模型 做 比较 ， 然 后 更 新 该 模型 ; 
// 处 理 方法 


void process(cv:: Mat &frame, cv:: Mat &output) { 
// 转换 成 灰 度 图 像 
CVv::CvtColor(frame, gray, CV::COLOR_ BGR2GRAY); 
// 采用 第 一 帧 初始 化 背景 
if (background .empty () ) 
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gray.convertTo (background, CV_32F); 
// 将 背景 转换 成 8U 类 型 
packground .convertTo (backImage,CV_8U) ; 


// 计算 图 像 与 背景 之 间 的 差异 

cv::absdiff (backIimage,gray,foreground); 

// 在 前 景 图 像 上 应 用 阅 值 

cv::threshold(foreground,output,threshold, 
255,cv: :THRESH_BINARY_INV); 





// 累积 背景 
cv::accumulateWeighted(gray, backgroungd, 
// alpha*gray + (1l-alpha)*background 
learningRate， // 学 习 速 率 
output); // 掩 码 
} 


使 用 自 定义 的 视频 处 理 框架 ， 可 以 这 样 构建 前 景 提取 程序 ; 








int main() { 
// 创建 视频 处 理 类 的 实例 
VideoProcessor processor; 
// 创建 背景 /前 景 的 分 割 器 
BGFGSegmentor segmentor; 
segmentor.setThreshold(25); 


// 打开 视频 文件 


processor.setInput ("bike.avi"); 


// 设置 帧 处 理 对 象 


processor.setFrameProcessor (&segmentor); 


// 声明 显示 视频 的 窗口 


processor.displayOutput ("Extracted Foreground"); 


// 用 原始 帧 速率 播放 视频 


processor.setDelay (1000./processor.getFrameRate()); 


// 开始 处 理 
processor.run(); 


} 
最 后 得 到 一 些 二 值 前 景 图 像 ， 其 中 一 个 如 下 图 所 示 。 
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12.5.2 ”实现 原理 


用 cv: :accumulateweighted 函数 计算 图 像 的 滑动 平均 值 非常 方便 , 它 在 图 像 的 每 个 像素 
上 应 用 滑动 平均 值 计算 公式 。 注 意 , 作 为 结果 的 图 像 必 须 是 浮 点 数 类 型 的 。 所 以 ,在 比较 背景 模 
型 与 当前 帧 之 前 , 必须 先 把 前 者 转换 成 背景 图 像 。 对 差异 绝对 值 进行 闵 值 化 ( 先 用 cv: :absaiff 
计算 ， 再 用 cv: :thresholgd ) 以 提取 前 景 图 像 。 然 后 把 这 个 前 景 图 像 作 为 cv: :accumulate 
Weighted 函数 的 掩 码 ,防止 修 改 已 被 认定 为 前 景 的 像素 。 之 所 以 能 这 么 做 ,是 因为 在 前 景 图 像 
中 , 已 被 认定 为 前 景 的 像素 值 为 false， 即 0 (这 也 是 结果 图 像 的 前 景物 体 呈 黑色 的 原因 )。 


最 后 需要 注意 的 是 , 为 了 简化 , 我 们 在 构建 背景 模型 时 采用 了 被 提取 帧 的 灰 度 图 像 。 如 果 构 
建 彩色 背景 , 就 需要 在 多 个 色彩 空间 下 计算 滑动 平均 值 。 上 述 方法 的 主要 难点 在 于 ， 如何 针对 特 
定 的 视频 选择 合适 的 阔 值 , 以 得 到 满意 的 结果 。 这 也 是 参数 化 计算 机 视觉 算法 中 经 常 遇 到 的 问题 。 








































































































12.5.3 扩展 阅读 


上 述 提取 前 景物 体 的 方法 比较 简单 ， 适 用 于 背景 相对 固定 的 简易 场景 。 但 是 在 很 多 情况 下 ， 
背景 中 的 某 些 部 位 会 在 不 同 的 值 之 间 波 动 ， 导 致 背景 检测 结果 频繁 出 错 。 背 景物 体 的 移动 ( 如 树 
叶 )、 刺 眼 的 物体 ( 如 水 面 ) 等 因素 都 是 产生 这 种 现象 的 原因 。 物 体 的 阴影 也 会 带 来 问题 ， 因 为 
阴影 也 是 会 移动 的 。 为 了 解决 这 些 问题 ， 我 们 引入 了 更 复杂 的 背景 模型 。 

混合 高 斯 模型 

混合 高 斯 方法 是 这 些 改进 型 算法 中 的 一 种 。 它 的 处 理 方式 与 前 面 介绍 的 基本 一 致 , 但 做 了 几 
项 改进 。 


首先 ， 该 方法 适用 于 每 个 像素 有 不 止 一 个 模型 ( 即 不 止 一 个 滑动 平均 值 ) 的 情况 。 这 样 的 
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话 ， 如 果 一 个 背景 像素 在 两 个 值 之 间 波 动 ， 那 么 就 会 存储 两 个 滑动 平均 值 。 只 有 当 新 的 像素 值 
不 属于 任何 一 个 频繁 出 现 的 模型 时 , 才 会 认为 这 个 像素 是 前 景 。 模型 的 数量 可 以 在 参数 中 设置 ， 
通常 为 5 个。 


其 次 ， 每 个 模型 不 仅 保存 了 滑动 平均 值 ， 还 保存 了 滑动 方差 。 它 的 计算 方法 如 下 所 示 : 
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计算 得 到 的 平均 值 和 方差 用 于 构建 高 斯 模型 , 根据 高 斯 模型 就 可 计算 某 个 像素 值 属 于 背景 的 
概率 。 用 概率 替代 绝对 差 值 后 , 闵 值 的 选择 就 会 更 加 容易 。 这 样 , 如 果 某 个 区 域 的 背景 波动 较 大 ， 
就 需要 有 更 大 的 差 值 才 能 被 认定 为 前 景物 体 。 


最 后 , 这 是 一 个 自 适应 模型 。 也 就 是 说 ， 如 果 某 个 高 斯 模型 满足 条 件 的 概率 不 够 高 ， 它 就 会 
被 排除 在 背景 模型 之 外 ; 反之 , 如 果 发 现 一 个 像素 值 在 当前 背景 模型 之 外 ( 即 为 一 个 前 景 像素 )， 
那么 就 会 创建 一 个 新 的 高 斯 模型 。 如果 这 个 新 建 的 模型 随后 频繁 收 到 像素 , 就 把 它 作为 正确 的 背 
景 模型 。 


比 起 前 面 的 前 景 /背景 分 割 法 ， 这 个 算法 更 加 复杂 ,实现 起 来 更 加 困难 。 幸 好 OpenCV 已 经 有 了 
现成 的 类 , 名 为 cv: :bgsegm: :BackgroundSubtractorMOG, 它 是 cv: :BackgroundSuptractor 


的 子 类 ， 后 者 的 通用 性 更 强 。 如 果 采 用 默认 参数 ， 使 用 这 个 类 就 变 得 非常 简单 : 



















































































int main(){ 
// 打开 视频 文件 
Cv::VideoCapture capture("bike.avi"); 
// 检查 是 否 成 功 打 开 视 频 
if (!capture.isOpened() 
return 0; 


// 当前 视频 帧 

cv::Mat frame; 

// 前 景 的 二 值 图 像 

cv::Mat foreground; 

// 背景 图 像 

cv::Mat background; 

Cv: :namedWindow ("Extracted Foreground"); 

// 混合 高 斯 模型 类 的 对 象 ， 全 部 采用 默认 参数 

cV: :Ptr<cv::BackgroundSubtractor> ptrMOG = 
cv: :bgsegm: :createBackgroundSubtractorMOG(); 

bool Stop (false) ; 

// 遍历 视频 中 的 所 有 帧 

while (!stop) { 

// 读 取 下 一 帧 (如果 有 ) 

if (!capture.read (frame)) 

break; 








// 更 新 背景 并 返回 前 景 
ptrMOG->apply (frame, foreground,0.01); 
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// 改进 图 像 效 果 

cv::threshold(foreground,foreground, 128, 
255,cv: :THRESH_BINARY_INV); 

// 显示 前 景 和 背景 

cv::imshow ("Extracted Foreground",foreground); 





// 产生 廷 时 ， 或 者 按键 结 
if (cv::waitKey (10)>=0) 
Stop= Tres 
} 

} 

在 代码 中 ,只 需 创建 这 个 类 的 实例 并 调用 它 的 一 个 方法 , 这 个 方法 就 会 更 新 背景 并 返回 前 景 
图 像 ( 额外 的 参数 是 学 习 速 率 )。 男 外 ， 这 里 计算 的 背景 模型 是 彩色 的 。OpenCV 实现 的 方法 还 
包含 了 排除 阴影 的 机 制 ， 其 原理 是 检查 亮度 的 局 部 变化 是 否 为 像素 值 变 化 的 唯一 原因 ( 如 果 是 ， 
那 就 应 该 是 阴影 )， 或 者 是 否 包 含 了 色 度 的 变化 。 


该 模型 还 有 第 二 种 实现 方法 ， 称 为 cv: :BackgroundsSubtractorMO0G2， 它 能 动态 地 确定 
每 个 像素 上 有 多 少 高 斯 模型 。 你 可 以 在 上 述 例子 中 用 这 个 类 替代 原来 使 用 的 类 , 或 者 对 一 些 视频 
使 用 这 两 种 方法 ， 观察 它们 各 自 的 性 能 。 一 般 来 说 ， 使 用 cvV: :BackgroundSubtractorMOG2 
会 快 得 多 。 







































































12.5.4 ”参阅 


口 C. Stauffer 和 W. E. L. Grimson 于 1999 年 发 表 在 Conf' on Computer Vision and Pattern 
Recognition 的 论文 “Adaptive Background Mixture Models for Real-Time Tracking” 更 完整 
地 描述 了 混合 高 斯 算法 。 
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本 章 包 括 以 下 内 容 : 


口 跟踪 视频 中 的 特征 点 ; 
口 估算 光 流 ; 
口 跟踪 视频 中 的 物体 。 





13.1 简介 


视频 序列 显示 的 是 运动 中 的 场景 和 物体 , 非常 有 趣 。 上 一 章 介绍 了 读 取 、 处 理 和 存储 视频 的 
工具 , 本 章 将 介绍 几 种 跟踪 图 像 序列 中 运动 物体 的 算法 。 之 所 以 能 产生 这 种 可 见 运动 或 表 观 运动 ， 
是 因为 物体 以 不 同 的 速度 在 不 同 的 方向 上 移动 ， 或 者 是 因为 相机 在 移动 (或 者 两 者 都 有 )。 


在 很 多 应 用 程序 中 , 跟踪 表 观 运动 都 是 极其 重要 的 。 它 可 用 来 追踪 运动 中 的 物体 ,以 测定 它 
们 的 速度 、 判 断 它们 的 目的 地 。 对 于 手持 摄像 机 拍摄 的 视频 ,可 以 用 这 种 方法 消除 拌 动 或 减 小 拌 
动 幅度 ， 使 视频 更 加 平稳 。 运 动 估 值 还 可 用 于 视频 编码 , 用 以 压缩 视频 ， 便 于 传输 和 存储 。 本 章 
将 介绍 几 种 在 图 像 序列 中 跟踪 运动 物体 的 算法 , 被 跟踪 的 运动 可 以 是 稀 琉 的 ( 图 像 的 少数 位 置 上 
有 运动 ， 称 为 稀 琉 运动 )， 也 可 以 是 稠密 的 ( 图 像 的 每 个 像素 都 有 运动 ， 称 为 稠密 运动 )。 
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从 前 面 章节 介绍 的 内 容 可 以 看 出 , 根据 特殊 的 点 分 析 图 像 , 可 以 使 计算 机 视觉 算法 更 加 实用 
又 高 效 。 对 于 图 像 序列 也 是 如 此 , 通过 分 析 特 征 点 的 运动 , 可 以 判断 场景 中 各 种 物体 的 运动 情况 。 
本 节 将 通过 跟踪 在 多 个 帧 之 间 移 动 的 特征 点 ， 对 图 像 序列 进 行 时 序 分 析 。 











13.2.1 如何 实现 




















为 我 们 处 理 的 是 一 个 视频 序列 , 所 以 特征 点 所 属 的 物体 很 可 能 会 移动 ( 这 种 移动 也 可 能 是 摄像 机 
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的 移动 引起 的 )。 因 此 ， 如 果 想 找到 特征 点 在 下 一 帧 的 新 位 置 ， 就 必须 在 它 原 来 位 置 的 周 


围 进行 


搜索 。 这 个 功能 由 函数 cv: :calcopticalFlowPyrLK 实现 。 在 函数 中 输入 两 个 连续 的 帧 和 第 
一 幅 图 像 中 特征 点 的 向 量 ， 将 返回 新 的 特征 点 位 置 的 向 量 。 为 了 在 整个 视频 序列 中 跟踪 特征 点 ， 
要 一 帧 一 帧 地 重复 上 述 过 程 。 在 整个 视频 序列 中 跟踪 特征 点 时 , 部 分 特征 点 的 丢失 是 无 法 避免 的 ， 














这 会 导致 被 跟踪 特征 点 的 数量 逐渐 减少 。 因 此 ， 最 好 经 常 检测 新 特征 点 。 


现在 用 第 12 章 的 视频 处 理 框架 定义 一 个 类 , 实现 12.3 节 介 绍 的 FrameProcessor 接口 。 这 


个 类 的 数据 属性 包含 检测 和 跟踪 特征 点 所 需 的 变量 : 





class FeatureTracker : public FrameProcessor { 


cv::Mat gray; // 当前 的 灰 度 图 像 

cV::Mat gray_prev; // 上 一 个 友 度 图 像 

// 被 跟踪 的 特征 ， 从 0 到 1 

std: :vector<cv: :Point2f> points[2]; 

// 被 跟踪 特征 点 的 初始 位 置 

std: :vector<cv::Point2f> initial; 

std: :vector<cv::Point2f> features; // 被 检测 的 特征 





int max_count; // 检测 特征 点 的 最 大 个 数 
double qlevel; // 检测 特征 点 的 质量 等 级 
double minDist; // 两 个 特征 点 之 间 的 最 小 差距 
std::vector<uchar> status; // 被 跟踪 特征 的 状态 
std: :vector<float> err; // 跟踪 中 出 现 的 误差 
public: 
FeatureTracker() : max_count (500), qlevel(0.01), minDist(10.) {} 


过 程 包 





接 下 来 定义 process 方法 ， 它 将 在 处 理 序列 中 的 每 个 帧 时 被 调用 。 一 般 来 说 ， 处 到 


含 以 下 几 个 步骤 : 首先 根据 实际 需要 检测 特征 点 ; 然后 跟踪 这 些 特征 点 ， 噜 除 无 法 跟踪 或 不 需要 
跟踪 的 特征 点 ， 准 备 处 理 跟踪 成 功 的 特征 点 ; 最 后 , 把 当前 帧 和 当前 特征 点 作为 下 一 个 迭代 项 的 























LV? 


上 一 帧 和 上 一 批 特征 点 。 下 面 是 具体 代码 : 


void process(cv:: Mat &frame, cv:: Mat &output) { 





// 转换 成 灰 度 图 像 
CVv::CvtColor(frame, gray, CV_BGR2GRAY); 
frame.copyTo (output); 


// 工 .如 果 必 须 添 加 新 的 特征 点 
if(addNewPoints()){ 
// 检测 特征 点 
detectFeaturePoints(); 
// 在 当前 跟踪 列表 中 添加 检测 到 的 特征 点 
points[0] .insert (points[0] .end(), 
features.begin(), features.end()); 
initial.insert (initial.end(), 
features.begin(),features.end()); 
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// 对 于 序列 中 的 第 一 幅 图 像 
if(gray_prev.empty ()) 
gray .copyTo (gray_prev); 


// 2. 跟 踪 特 征 
Cv::calcOpticalFlowPyrLK( 








gray_prev，gray，// 两 个 连续 图 像 
points[0], // 输入 第 一 幅 图 像 的 特征 点 位 置 
points[1]， // 输出 第 二 幅 图 像 的 特征 点 位 置 
status, // 跟踪 成 功 
err); // 跟踪 误差 

// 3 .循环 检查 被 跟踪 的 特征 点 ， 别 除 部 分 特征 点 

int k=0; 

for( int i= 0; i < points[1] .size(); i++ ) { 


// 是 否 保留 这 个 特征 点 ? 
if (acceptTrackedPoint (i)) { 
// 在 向 量 中 保留 这 个 特征 点 
initial[k]= initiall[i]; 
points[1] [k++] = points[1] [i]; 
} 
} 


// 别 除 跟 踪 失 败 的 特征 点 
points[1] .resize(k); 
initial.resize(k); 


// 4. 处 理 已 经 认可 的 被 跟踪 特征 点 
handleTrackedPoints (frame, output); 


// 5. 让 当前 特征 点 和 图 像 变 成 前 一 个 
std::swap(points[1], points{[0]); 
CVv::swap(lgray_prev, gray); 





} 
这 个 函数 利用 了 四 个 工具 类 方法 。 你 可 以 随意 茶 换 这 几 个 方法 ， 以 实现 自 定义 的 跟踪 功能 。 
第 一 个 方法 检测 特征 点 ，8.2 节 已 经 讨论 过 这 个 cv: :goodFeatureToTrack 方法 : 


Ly 








// 特征 点 检测 方法 
void detectFeaturePoints() { 


// 检测 特征 点 

cv: :goodFeaturesToTrack (gray，// 图 像 
features, // 输出 检测 到 的 特征 点 
max_count， // 特征 点 的 最 大 数量 


dqlevel, // 质量 等 级 
minDist); // 特征 点 之 间 的 最 小 差距 
} 


第 二 个 方法 判断 是 否 需 要 检测 新 的 特征 点 。 如 果 现 有 特征 点 非常 少 ， 就 要 检测 新 的 : 























Rly 
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// 判断 是 否 需要 添加 新 的 特征 点 
bool addNewPoints() { 


// 如 果 特征 点 数量 太 少 
return points[0] .size()<=10; 


} 

第 三 个 方法 根据 应 用 程序 定义 的 条 件 剔 除 部 分 被 跟踪 的 特征 点 。 这 里 剔除 静止 的 特征 点 (还 
有 不 能 被 cv: :calcopticalFlowPyrLK 函数 跟踪 的 特征 点 ), 我 们 假定 静止 的 点 属于 背景 部 分 ， 
可 以 忽略 : 


// 判断 需要 保留 的 特征 点 


bool acceptTrackedPoint (int i) { 








return status[i] && 

// 如 果 特 征 点 已 经 移动 
(abs (points[0] [i] .x-points{[1] [i].x)+ 

(abs (points[0] [i] .y-points[1] [i].y))>2); 

} 


第 四 个 方法 处 理 被 跟踪 的 特征 点 , 具体 做 法 是 在 当前 帧 画 直 线 , 连接 特征 点 和 它们 的 初始 位 
置 ( 即 第 一 次 检测 到 它们 的 位 置 ): 


// 处 理 当前 跟踪 的 特征 点 
void handleTrackedPoints(cv:: Mat &frame, cv:: Mat &output) { 


























// 遍历 所 有 特征 点 
for (int i= 0; i < points[1] .size(); i++ ) { 
// 画 线 和 贺 
cv::line(output,，jinitial[i]， // 初始 位 置 
points[1] [i], // 新 位 置 


Oviiocalar(255,255,255)).3 
cv::circle(output, points[1][i], 3, 
人 
} 
} 


可 以 写 一 个 简单 的 main 函数 ， 跟 踪 视 频 序列 中 的 特征 点 : 


int main(){ 
// 创建 视频 处 理 类 的 实例 
VideoProcessor processor; 
// 创建 特征 跟踪 类 的 实例 
FeatureTracker tracker; 
// 打开 视频 文件 


processor.setInput ("bike.avi"); 


// 设置 帧 处 理 类 


processor.setFrameProcessor (&tracker); 


// 上 声明 显示 视频 的 窗口 
processor.displayOutput ("Tracked Features"); 
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// 以 原始 帧 速率 播放 视频 


processor.setDelay (1000./processor.getFrameRate()); 


// 开始 处 理 
processor.run(); 


} 
最 终 程序 显示 被 跟踪 的 特征 点 随时 间 移 动 的 过 程 。 这 里 用 两 个 不 同 瞬 间 的 帧 作为 例子 。 这 
个 视频 中 的 摄像 机 是 固定 不 动 的 ,移动 的 物体 只 有 骑 车 的 孩子 。 下 面 是 处 理 完 一 些 帧 后 得 到 的 


时 
结果 。 








看 Tracked Features 





几 秒 钟 后 ， 得 到 下 面 的 帧 。 





看 Tracked Features 回 X 
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13.2.2 ”实现 原理 


要 逐 帧 地 跟踪 特征 点 , 就 必须 在 后 续 帧 中 定位 特征 点 的 新 位 置 。 假设 每 个 帧 中 特征 点 的 强度 
值 是 不 变 的 ， 这 个 过 程 就 是 寻找 如 下 的 位 移 (u,v): 














T(x,y)= Ln(xXtu, y+v) 








其 中 和 ,1 分别 是 当前 帧 和 下 一 个 瞬间 的 帧 。 强 度 值 不 变 的 假设 普遍 适用 于 相 邻 图 像 上 的 
微小 位 移 。 我 们 可 使 用 泰勒 展开 式 得 到 近似 方程 式 ( 包含 图 像 导 数 ): 











or 0 oo 
了 +uU, y+V) SO)+ 一 + 一 v+ 一 
ES 人 





根据 第 二 个 方程 式 ， 可 以 得 到 另 一 个 方程 式 (根据 强度 值 不 变 的 假设 , 去 掉 了 两 个 表示 强度 
值 的 项 ): 








这 就 是 基本 的 光 流 约束 方程 ， 也 称 作 亮度 恒定 方程 。 


Lukas-Kanade 特征 跟踪 算法 使 用 了 这 个 约束 方程 。 除 此 之 外 ,该 算法 还 做 了 一 个 假设 ， 即 
寺 征 点 邻 域 中 所 有 点 的 位 移 量 是 相等 的 。 因 此 ， 我 们 可 以 将 光 流 约束 应 用 到 所 有 位 移 量 为 (u, v) 
的 点 (wu 和 v 还 是 未 知 的 )。 这 样 就 得 到 了 更 多 的 方程 式 ， 数 量 超 过 未 知 数 的 个 数 〈 两 个 )， 因 此 
可 以 在 均 方 意义 下 解 出 这 个 方程 组 。 在 实际 应 用 中 ,我 们 采用 迭代 的 方法 来 求解 。 为 了 使 搜索 更 
高 效 且 适 应 更 大 的 位 移 量 ，OpenCV 还 提供 了 在 不 同 分 辨 率 下 进行 计算 的 方法 。 默 认 的 图 像 等 级 
数量 为 3， 窗口 大 小 为 15; 当然 ， 这 些 参数 是 可 以 修改 的 。 你 还 可 以 设 定 一 个 终止 条 件 ， 符 合 这 
个 条 件 时 就 停止 迭代 搜索 。cv: :calcopticalFlowPyrLK 国 数 的 第 六 个 参数 是 剩余 均 方 误差 ， 
用 于 评定 跟踪 的 质量 。 第 五 个 参数 包含 二 值 标志 ， 表 示 是 否 成 功 跟踪 了 对 应 的 点 。 


这 些 就 是 Lukas-Kanade 跟踪 算法 的 基本 规则 。 具 体 实现 时 还 做 了 优化 和 改进 ， 使 该 算法 在 
计算 大 量 特征 点 的 位 移 时 更 加 高 效 。 

































































13.2.3 ”参阅 


口 第 8 章 详 细 介 绍 了 检测 特征 点 的 方法 。 

口 13.4 节 将 通过 跟踪 特征 点 来 跟踪 物体 。 

口 B.Lucas 和 TKanade 于 1981 年 发 表 在 Int. Joint Conference in Artificial Intelligence 第 674 页 
至 第 679 页 的 经 典 论文 “An Tterative Image Registration Technique with an Application to 
Stereo Vision” 描 述 了 原始 的 特征 点 跟踪 算法 。 
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口 J.Shi 和 C.Tomasi 于 1994 年 发 表 在 IEEE Conference on Computer Vision and Pattern Recognition 
第 593 页 至 第 600 页 的 “Good Features to Track” 描 述 了 原始 特征 点 跟踪 算法 的 改进 版 本 。 








13.3 ”估算 光 流 


相机 在 进行 拍摄 时 ,物体 的 亮度 值 被 投影 到 成 像 传感器 上 ， 从 而 形成 了 照片 。 我 们 通常 关注 
视频 序列 中 运动 的 部 分 , 即 场景 中 不 同 元 素 的 三 维 运动 在 成 像 平面 上 的 投影 。 三 维 运动 向 量 的 投 
影 图 被 称 作 运动 场 。 但 是 在 只 有 一 个 相机 传感器 的 情况 下 ,是 不 可 能 直接 测量 三 维 运动 的 , 我 们 
只 能 观察 到 帧 与 帧 之 间 运 动 的 亮度 模式 。 亮 度 模 式 上 的 表 观 运动 被 称 作 光 流 。 通 常 认为 运动 场 和 
光 流 是 等 同 的 , 但 其 实 不 一 定 。 典 型 的 例子 是 观察 均匀 的 物体 ; 例如 相机 在 白色 的 墙壁 前 移动 时 
就 不 产生 光 流 。 


还 有 一 个 常见 的 例子 ， 就 是 理发 店 门口 的 旋转 灯 柱 。 














































































































这 个 例子 中 , 运动 场 上 的 运动 向 量 是 水 平方 向 的 ,因为 灯 柱 绕 垂 直 的 轴 心 旋转 。 但 是 在 路 人 
眼中 , 红色 和 蓝 色 带 子 是 向 上 运动 的 ， 而 这 正 是 光 流 的 方向 。 虽 然 有 这 些 差 异 ， 但 仍 可 以 用 光 流 
粗略 地 表示 运动 场 。 本 节 将 解释 如 何人 算出 图 像 序列 的 光 流 。 





13.3.1 准备 工作 


估算 光 流 其 实 就 是 量化 图 像 序列 中 亮度 模式 的 表 观 运动 。 首先 来 看 视频 中 某 个 时 刻 的 一 帧 画 
面 。 观 察 当 前 帧 的 某 个 像素 (x, y)， 我们 要 知道 它 在 下 一 帧 会 移动 到 哪个 位 置 。 也 就 是 说 ,这 个 点 
的 坐标 在 随 着 时 间 变 化 ( 表示 为 (x(?), y(D) )， 而 我 们 要 估算 出 这 个 点 的 速度 (dx/dt, dy/d?)。 可 以 从 
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对 应 的 帧 中 获取 这 个 点 在 t 时 刻 的 亮度 ， 表 示 为 Ix(?), y(t)。 
根据 图 像 亮度 恒定 的 假设 ， 可 以 认为 这 个 点 的 亮度 不 会 随 着 时 间 变 化 : 


d(x, yD,D _ 0 
dt 





利用 链 式 法 则 ， 可 以 写作 : 





dd dod 
dzd dyd dt 








这 就 是 亮度 恒定 方程 ， 它 建立 了 光 流 分 量 (x 和 了 对 时 间 的 导数 ) 与 图 像 导数 之 间 的 关系 。 
这 就 是 上 一 节 推 导出 的 方程 ， 这 里 只 是 用 另 一 种 方式 表示 。 


但 这 个 单一 方程 〈 含 两 个 未 知 量 ) 无 法 计算 出 一 个 像素 位 置 的 光 流 ， 我 们 还 需要 增加 一 个 
额外 的 约束 条 件 。 常 见 的 方法 是 假定 光 流 具 有 一 定 的 平滑 度 ， 即 相 邻 的 光 流向 量 是 相似 的 。 如 
果 不 能 满足 这 个 假定 条 件 ， 就 无 法 进行 计算 。 这 个 约束 条 件 可 以 用 基于 光 流 的 拉 普 拉 斯 算 子 的 
公式 表示 : 
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现在 要 做 的 就 是 找到 光 流 场 , 使 亮度 恒定 公式 的 偏差 和 光 流 向 量 的 拉 普 拉 斯 算 子 都 达到 最 
小 值 。 











13.3.2 ”如 何 实现 


估算 稠密 光 流 的 方法 有 很 多 , OpenCV 已 经 实现 了 其 中 的 几 种 。 我 们 可 以 使 用 cv: :Algorithm 
的 子 类 cv: :DualTVL1oOpticalFlow。 实 现 模式 后 ， 先 来 创建 这 个 类 的 实例 ， 并 获取 其 指针 


// 创建 光 流 算法 
CVv::Ptr<cv::DualTVL1OpticalFlow> tvll = cv::createOptFlow_ DualTVL1(); 


这 个 实例 已 经 可 以 使 用 了 ， 所 以 只 需 调 用 计算 两 个 帧 之 间 的 光 流 场 的 方法 即 可 : 


cvV::Mat oflow; // 二 维 光 流向 量 的 图 像 

// 计算 framel 和 frame2 之 间 的 光 流 

tvll->calc (framel, frame2, oflow); 

所 得 结果 是 二 维 向 量 ( cv: :Point ) 组 成 的 图 像 ， 每 个 二 维 向 量 表示 一 个 像素 在 两 个 帧 之 
间 的 变化 值 。 要 展示 结果 ， 就 必须 显示 这 些 向 量 。 为 此 我 们 创建 了 一 个 函数 ， 用 来 创建 光 流 场 
的 图 像 映射 。 为 控制 向 量 的 可 见 性 ， 需 要 使 用 两 个 参数 。 第 一 个 参数 是 步 长， 表示 每 隔 一 定数 















































13.3 ”估算 光 流 277 

















量 的 像素 再 显示 一 个 向 量 ; 这 个 步 长 确定 了 显示 向 量 的 空间 。 第 二 个 参数 是 缩放 因子 ， 用 来 延 
长 向 量 ， 以 提高 清晰 度 。 每 个 光 流 向 量 就 是 一 条 短线 ， 线 的 末端 有 一 个 代表 箭头 的 圆圈 。 映 射 
函数 的 代码 为 : 


// 绘制 光 流向 量 图 
void drawOpticalFlow(const cv::Mat& oflow，// 光 流 


cv::Mat& flowImage, // 绘制 的 图 像 
int stride, // 显示 向 量 的 步 长 
float scale, // 放大 因子 


const cv::Scalar& color) // 显示 向 量 的 颜色 


// 必要 时 创建 图 像 





if (flowImage.size() != oflow.size()) { 
flowImage.create (oflow.size(), CV_8UC3); 
flowImage = cv::Vec3i(255,255,255); 

} 


// 对 所 有 向 量 ， 以 stride 作为 步 长 
for (int y = 0; y < oflow.rows; y += stride) 
for (int x = 0; x < oflow.cols; x += stride) { 
// 获取 向 量 
Cv::Point2f vector = oflow.at< cv::Point2f>(y, x); 
// 画 线 条 
cv::line(flowImage, cv::Point (x,y), 
Cv::Point (static_ cast<int>(x + scale*vector.x + 0.5) 


六 
Ce 
Ul 





static cast<int>(y + scale*vector.y 
COLOr)s 
// 画 顶 端 圆圈 
cvV::circle(fElowImage， 
cv::Point (static_ cast<int>(x + scale*vector.x + 0.5), 
static_ cast<int>(y + scale*vector.y + 0.5)), 


LOT 二) 


} 
看 下 面 两 个 帧 。 
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使 用 这 两 个 帧 时 ， 可 以 用 上 面 的 函数 绘制 光 流 场 : 


// 绘制 光 流 图 
cv::Mat flowImage; 
drawOpticalFlow (oflow, 


// 输入 光 流 向 量 





flowImage, // 生成 的 图 像 
8, // 每 隔 8 个 像素 显示 一 个 向 量 
2 // 长 度 壬 长 2 倍 


cv::Scalar (0, 0, 


结果 如 下 图 所 示 。 





13.3.3 ”实现 原理 


前 面 讲 过 , 通过 优化 亮度 恒定 约束 和 光滑 函数 的 组 合 函 数 ， 可 以 估算 出 光 流 场 。 这 个 方程 组 





轿 Optical Flow 
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就 是 光 流 场 的 经 典 公 式 ， 并 且 已 经 得 到 了 很 多 优化 。 


前 面 使 用 的 方法 被 称 作 双 DV L1 方法 ， 由 两 部 分 组 成 。 第 一 部 分 使 用 光滑 约束 ， 使 光 流 梯 
度 的 绝对 值 (不 是 平方 值 ) 最 小 化 ; 选用 绝对 值 可 以 削弱 平滑 度 带 来 的 影响 ,尤其 是 对 于 不 连续 
的 区 域 , 运动 物体 和 背景 部 分 的 光 流 向 量 的 差别 很 大 。 第 二 部 分 使 用 一 阶 泰勒 近似 , 使 亮度 恒定 
约束 公式 线性 化 。 这 里 不 讨论 公式 的 细节 ， 但 可 以 肯定 的 是 ， 线 性 化 更 有 利于 迭代 估算 光 流 场 。 
但 由 于 线性 化 近似 只 对 位 移 量 很 小 的 情况 有 效 ， 因 此 这 个 算法 需要 采用 由 粗 到 细 的 估算 模式 。 

本 闻 使 用 这 个 方法 时 ,参数 都 采用 了 默认 值 。 你 也 可 以 用 设置 方法 和 获取 方法 修改 参数 ， 以 
调整 处 理 效果 和 计算 速度 。 例 如 , 可 以 修改 金字 塔 算法 的 层 数 , 也 可 以 调节 迭代 步骤 的 终止 条 件 ， 
使 它 更 严格 或 更 宽松 。 此 外 还 有 一 个 很 重要 的 参数 ， 即 亮度 恒定 约束 与 光滑 度 约束 的 相对 权重 。 
























































如 果 把 亮度 约束 的 权重 减 2， 产 生 的 光 流 场 就 会 更 加 光滑 : 


// 计算 两 个 帧 之 间 更 加 光滑 的 光 流 
tVv1L1->SetLambdqa(0.075) ; 
tvll->calc (framel, frame2, 





oflow); 
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13.3.4 ”参阅 

口 B. K.P. Horn 和 B.G.Schunck 于 1981 年 发 表 在 Artificial Intelligence 上 的 论文 “Determining 

optical ffow” 是 有 关 光 流 计算 的 经 典 文章 。 

口 C.Zach、T.Pock 和 H. Bischof 于 2007 年 发 表 在 IEEE conference on Computer Vision and Pattern 
Recoegnition 上 的 论文 “A duality based approach for real time tv-ll optical flow” 详 细 介 绍 了 双 


TV-L1 算法。 








13.4 ”跟踪 视频 中 的 物体 


前 面 两 节 介绍 了 如 何在 图 像 序列 中 跟踪 运动 的 点 和 像素 , 但 在 很 多 应 用 程序 中 , 更 希望 能 够 
跟踪 视频 中 一 个 特定 的 运动 物体 。 为 此 要 先 标识 出 该 物体 , 然后 在 很 长 的 图 像 序列 中 对 它 进 行 跟 
踪 。 这 是 一 个 很 有 挑战 性 的 课题 ， 因 为 随 着 物体 在 场景 中 的 运动 , 物体 的 图 像 会 因 视角 和 光照 改 
变 、 非 刚体 运动 、 被 遮挡 等 原因 而 不 断 变 化 。 

本 节 将 介绍 OpenCV 实现 的 几 种 物体 跟踪 算法 。 为 了 便于 方法 之 间 的 替换 , 这 些 实现 方法 都 
是 基于 同一 个 框架 的 。 开 源 软件 贡献 考 也 提供 了 很 多 新 的 算法 。 值 得 注意 的 是 ，4.8 节 已 经 介绍 
了 一 种 物体 跟踪 算法 ， 它 使 用 了 根据 积分 图 像 计算 得 到 的 直方 图 。 





























13.4.1 ”如何 实现 


在 处 理 可 视 化 物体 跟踪 问题 时 ,通常 假设 事先 并 不 知道 待 跟踪 的 物体 。 开 始 跟踪 前 ， 要 先 在 
一 个 帧 中 标识 出 物体 ,然后 从 这 个 位 置 开 始 跟踪 。 标 识 物 体 的 方法 就 是 指定 一 个 包含 该 物体 的 矩 
形 ， 而 跟踪 模块 的 任务 就 是 在 后 续 的 帧 中 重新 识别 出 这 个 物体 。 


架 类 cv: :Tracker 包含 两 个 主 方法 , 一 个 是 init 方 
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与 之 对 应 ，OpenCYV 中 的 物体 跟踪 村 
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法 ,用 于 定义 初始 目标 矩形 ; 男 一 个 是 update 方法 ,输出 新 的 帧 中 对 应 的 矩形 。 两 个 方法 的 参 
数 都 是 一 个 帧 ( cv: :Mat 实例 ) 和 一 个 矩形 ( cv: :Rect2D 实例 )， 和 矩形 在 第 一 个 方法 中 是 输入 
参数 ， 在 第 二 个 方法 中 是 输出 参数 。 


为 验证 一 种 物体 跟踪 算法 , 我 们 要 使 用 上 一 章 介绍 的 视频 处 理 框 架 。 这 里 专门 定义 了 一 个 框架 
处 理子 类 ，ViaeoProcessor 类 在 处 理 图 像 序列 的 每 一 帧 时 都 会 调用 这 个 子 类 。 该 子 类 的 属性 有 : 











| 











class VisualTracker : public FrameProcessor { 


CVv: :Ptr<cv: :Tracker> tracker; 
Cv: :Rect2qd box:; 
bool reset; 


public: 

// 构造 函数 指定 选用 的 跟踪 器 

VisualTracker (cv: :Ptr<cv::Tracker> tracker) 
reset (true), tracker (tracker) {} 


每 次 指定 包含 新 物体 的 矩形 时 ， 跟 踪 模 块 都 会 重新 初始 化 ，reset 属性 被 设 为 true。 用 
setBoundingBox 方法 存储 新 的 物体 位 置 : 


// 设置 矩形， 以 启动 跟踪 过 程 

void setBoundingBox(const cv::Rect2d& bb) { 
ep = Bs 
reset = true; 








} 


用 于 处 理 每 一 帧 的 回调 函数 会 直接 调用 跟踪 模块 中 相关 的 方法 , 计算 出 新 的 矩形 并 在 帧 中 显 
示 出 来 : 


// 回调 函数 
void process(cv:: Mat &frame, cv:: Mat &output) { 











if (reset) { // 新 跟踪 会 话 
reset = false; 
tracker->init (frame, box); 


a 


else { 
// 更 新 目标 位 置 
tracker->update (frame, box); 


} 


// 在 当前 帧 中 绘制 矩形 
frame .CopyTo (output); 
virectandyle(tountont Dor CVSoalar(t2dS 209) LO) 2) 


下 面 使 用 OpenCYV 的 中 值 流量 Median Flow 闻 踪 器 ,说 明 VideoProcessor 和 FrameProcessor 
实例 是 如 何 实 现 物体 跟踪 的 : 
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int main(){ 
// 创建 视频 处 理 器 实例 


VideoProcessor processor; 


// 生成 文件 名 

std: :vector<std: :string> imgs; 
std::string prefix = "goose/goose"; 
Sta String :ext =. Dm 


// 添加 用 于 跟踪 的 图 像 名 称 
for (long i = 130; i < 317; i++) { 


std::string name (prefix); 

std::ostringstream ss; ss << std::setfill('0') << 
std::setw(3) << i; name += ss.str(); 

name += ext;} 

imgs.push_ back (name); 


} 
// 创建 特征 提取 器 实例 


VisualTracker tracker (cv::TrackerMedianFlow: :createTracker ()); 


// 打开 视频 文件 


processor.setInput (imgs); 


// 设置 帧 处 理 器 
processor.setFrameprocessor(&tracker); 


// 声明 显示 视频 的 窗口 
processor.displayOutput ("Tracked object"); 


// 定义 显示 的 帧 速率 


processor.setDelay (50); 


// 指定 初始 目标 位 置 
tracker.setBoundingBox(cv::Rect (290,100,65,40)); 


// 开始 跟踪 
processor.run(); 


} 
第 一 个 矩形 是 图 像 序 列 中 的 一 只 鹅 ， 在 后 续 的 帧 中 会 被 自动 跟踪 。 





轿 $Tracked object 
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但 随 着 视频 的 推进 ， 跟 踪 结 果 难 免 会 产生 误差 。 细 小 的 误差 逐渐 累积 起 来 ,会 导致 跟踪 结果 
慢 慢 偏离 实际 目标 。 下 面 是 处 理 完 130 帧 后 的 跟踪 结果 。 





下] Tracked object 


也 











跟踪 絮 最 终 会 完全 丢失 目标 。 是 否 能 长 时 间 不 失去 目标 ， 是 判断 跟踪 器 好 坏 最 重要 的 指标 。 


13.4.2 ”实现 原理 


本 节 介 绍 了 跟踪 图 像 序列 中 物体 的 通用 类 cv: :Tracker, 并 选用 了 中 值 流 量 跟踪 算法 来 展 
示 跟 踪 效 果 。 如 果 被 跟踪 的 物体 带 纹理 、 运 动 速度 不 太 快 且 没有 明显 的 遮挡 ， 这 种 方法 是 简单 
又 有 效 的 。 


中 值 流量 跟踪 算法 的 基础 是 特征 点 跟踪 。 它 先 在 被 跟踪 物体 上 定义 一 个 点 阵 。 你 也 可 以 改 为 
检测 物体 的 兴趣 点 ,例如 采用 第 8 章 介绍 的 FAST 算 子 检测 兴趣 点 。 但 是 使 用 预定 位 置 的 点 有 很 
多 好 处 : 它 不 需要 计算 兴趣 点 ， 因 而 节约 了 时 间 ; 它 可 以 确保 用 于 跟踪 的 点 的 数量 足够 多 ,还 能 
确保 这 些 点 分 布 在 整个 物体 上 。 默 认 情 况 下 ， 中 值 流量 法 采用 10x10 的 点 阵 。 























国 革 Initial points 
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下 一 步 将 使 用 13.2 节 介 绍 的 Lukas-Kanade 特征 跟踪 算法 。 在 下 一 帧 中 跟踪 点 阵 上 的 每 个 点 。 





看 Tracked points 3 口 XxX 














接着 , 中 值 流量 算法 估算 跟踪 过 程 中 产生 的 误差 。 估 算 误差 的 一 种 方法 是 在 点 的 初始 位 置 和 
跟踪 位 置 的 周边 设 一 个 窗口 ,计算 窗口 内 像素 差 值 的 绝对 值 之 和 。 计 算 这 种 类 型 的 误差 非常 方便 ， 
调用 cv: :calcOpticalFlowPyrLK 函 数 即 可 。 男 一 种 衡量 中 值 流量 算法 误差 的 方法 称 作 前 进 - 
后 退 误差 。 从 第 一 帧 到 第 二 帧 跟踪 一 批 点 后 ， 从 新 的 位 置 反 向 跟踪 回来 , 看 它们 是 否 回 到 了 初始 
位 置 。 比 较 前 进 -后 退 的 位 置 与 初始 位 置 ， 得 到 的 差 值 就 是 跟踪 误差 。 


计算 出 每 个 点 的 跟踪 误差 后 ， 只 使 用 其 中 误差 最 小 的 50% 来 计算 和 矩形 在 下 一 幅 图 像 中 的 位 
置 。 计算 出 每 个 点 的 位 置 后 , 取 它 们 的 中 值 。 为 计算 图 像 缩放 比例 , 要 把 这 些 点 分 组 , 每 组 两 个 ; 
然后 分 别 计算 这 两 个 点 在 初始 帧 和 后 续 帧 中 的 距离 ， 并 计算 这 两 个 距离 的 比值 。 同样 ,这 里 要 采 
用 这 些 比 值 的 中 值 。 


中 值 跟踪 法 是 众多 基于 特征 点 跟踪 的 可 视 物 体 跟踪 方法 中 的 一 种 。 还 有 一 类 方法 基于 模板 匹 
配 , 即 9.2 节 介 绍 的 概念 ,其 中 有 代表 性 的 是 Kernelized Correlation 滤波 法 ( Kernelized Correlation 
Filter，KCF )， 它 在 OpenCV 中 用 cv: :TrackerKCF 类 实现 : 




















VisualTracker tracker (cv::TrackerKCF::createTracker ()); 


总 的 来 说 ,， 它 把 标识 目标 的 矩形 看 作 一 个 模板 ,用 于 搜寻 物体 在 下 一 个 视图 中 的 位 置 。 按 理 
来 说 ， 可 以 使 用 简单 的 关联 性 计算 模板 ， 但 是 KCF 算法 使 用 了 一 个 特殊 的 技巧 一 一 基于 傅 里 叶 
变换 ( 6.1 节 曾 做 过 简要 介绍 ) 一 一 来 计算 模板 。 这 里 不 讨论 具体 细节 ， 根 据 信号 处 理 理论 ,在 
图 像 上 关联 模板 就 相当 于 是 频 域内 的 图 像 乘 法 运算 。 采 用 这 种 方法 , 可 以 显著 提高 在 下 一 帧 中 识 
别 匹 配 窗口 的 速度 ，KCF 也 因此 成 为 最 快 和 重 棒 性 最 好 的 跟踪 器 之 一 。 下 面 的 例子 是 用 KCF 跟 
踪 130 帧 后 矩形 的 位 置 。 
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种 利用 中 值 流量 算法 的 高 级 跟踪 方法 。 

口 J.F. Henriques 、R. Caseiro 、P Martins 和 J. Batista 于 2014 年 发 表 在 JEEE Transactions on 

Pattern Analysis and Machine Intelligence 第 37 卷 第 3 期 中 的 论文 “High-Speed Tracking with 

Kernelized Correlation Filters” 描 述 了 KCF 跟踪 算法 。 





实用 案例 








本 章 包 括 以 下 内 容 : 

口 用 最 邻近 局 部 二 值 模式 实现 人 脸 识别 ; 

口 通过 级 联 Haar 特征 实现 物体 和 人 脸 定位 ; 

口 用 支持 向 量 机 和 方向 梯度 直方 图 实现 物体 和 行人 检测 。 
































14.1 简介 


人 们 现在 通常 用 机 器 学 习 来 解决 复杂 的 计算 机 视觉 问题 。 机 器 学 习 是 一 个 内 容 非 常 广泛 的 研 
究 领 域 , 包含 很 多 重要 概念 ， 写 成 一 本 书 绝对 不 为 过 。 本 章 将 探讨 几 种 主要 的 机 融 学 习 技 术 , 并 
说 明 如 何在 OpenCV 计算 机 视觉 系统 中 加 以 应 用 。 


机 器 学 习 的 核心 内 容 是 建立 一 套 计算 机 系统 , 使 其 能 自己 学 会 如 何 处 理 数据 。 向 机 器 学 习 系 
统 输入 带 有 明确 结果 的 样本 数据 , 它 就 能 自动 适应 并 不 断 改进 ， 而 不 需要 显 式 的 编程 。 训 练 过 程 
完成 后 ， 系 统 就 会 对 新 的 输入 做 出 正确 的 响应 。 


机 器 学 习 可 以 解决 很 多 类 型 的 问题 ， 这 里 将 重点 关注 分 类 问题 。 理 论 上 ， 要 构建 一 个 分 类 
器 ， 使 其 能 识别 带 有 某 些 特性 的 事物 ， 就 必须 用 大 量 带 有 标注 的 样本 数据 对 其 进行 训练 。 对 于 
二 类 分 类 问题 ， 这 些 训练 数据 包括 正 样本 和 负 样 本 ， 其 中 正 样本 代表 属于 该 类 别 的 实例 ， 而 负 
样本 代表 不 属于 该 类 型 的 反例 。 通 过 这 些 样本 ， 分 类 器 将 产生 一 个 能 对 任何 实例 做 出 正确 判断 
的 决策 函数 。 


在 计算 机 视觉 领域 ,样本 就 是 图 像 (或 视频 片段 )。 机 带 学 习 的 第 一 步 是 要 找到 一 种 模型 ， 
可 以 用 简洁 又 有 差异 性 的 方式 准确 地 反映 每 幅 图 像 的 内 容 。 最 简单 的 模型 就 是 采用 固定 大 小 的 
缩 略 图 ;把 缩 略 图 的 像素 逐 行列 出 ， 组 成 一 个 向 量 ， 作 为 机 器 学 习 算 法 的 训练 样本 。 此 外 还 可 
以 使 用 其 他 效果 更 好 的 模型 。 本 章 将 分 析 几 种 不 同 的 图 像 模型 ， 并 介绍 几 种 常用 的 机 器 学 习 算 
法 。 需 要 强调 的 是 ， 本 章 不 会 涉及 各 种 机 器 学 习 技 术 的 细节 ， 而 是 着 重 关 注 实 现 相 关 功 能 的 基 
本 原理 。 
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14.2 ”人 脸 识 别 

本 节 将 先 介绍 最 近邻 分 类 法 ， 它 可 能 是 最 简单 的 机 器 学 习 方 法 ; 再 介绍 局 部 二 值 模式 特征 
它 对 图 像 纹 理 和 轮廓 进行 独立 编码 ， 是 一 种 常用 的 网 像 模 型 。 

我 们 用 人 脸 识别 作为 具体 示例 。 这 是 一 个 很 有 挑战 性 的 课题 ， 人 们 在 最 近 20 年 对 此 进行 了 
大 量 研究 。 本 节 将 介绍 一 种 基本 方法 , 它 是 OpenCV 实现 人 脸 识 别 的 几 种 方法 之 一 。 这 种 方法 的 
鲁 棒 性 明显 不 高 ， 只 能 在 非常 理想 的 情况 下 使 用 ， 但 它 是 机 器 学 习 和 人 脸 识别 的 极 佳人 门 案例 。 























14.2.1 如何 实现 


OpenCV 提供 了 很 多 人 脸 识别 方法 ,它们 都 是 通用 类 cv: :face: :FaceRecognize 的 子 类 。 
本 节选 用 cv: :face::LBPHFaceRecognizer 类 ， 因 为 它 基 于 一 种 简单 但 通常 很 有 效 的 分 类 
方法 最 邻近 分 类 法 。 而 且 它 使 用 的 图 像 模型 基于 局 部 二 值 模式 (local binary pattern，LBP ) 
特征 ， 这 是 一 种 很 常见 的 图 像 描述 模式 。 


调用 Cv::face: :LBPHFaceRecognizer 的 静态 函数 create 以 创建 它 的 实例 : 

















Cv: :Ptr<cv::face::FaceRecognizer> recognizer = 
cv::face::createLBPHFaceRecognizer(1，// LBP 模式 的 半径 


8， // 使 用 邻近 像素 的 数量 
8，8， // 网 格 大 小 


200.8); // 最 邻近 的 距离 阅 值 


前 面 两 个 参数 声明 了 所 用 LBP 特征 的 属性 ， 后 面 会 详细 解释 。 接 着 要 向 识别 器 输入 一 批 参 
考 人 脸 图 像 ， 具体 为 提供 两 个 向 量 , 一 个 存放 人 脸 图 像 ， 男 一 个 存放 对 应 的 标签 。 每 个 标签 就 是 
一 个 任意 大 小 的 整数 ,代表 一 个 具体 的 人 。 训 练 识 别 器 的 方法 就 是 向 它 输 入 不 同 的 图 像 ， 让 它 识 
别 每 幅 图 像 上 的 人 。 很 显然 ,提供 的 参考 图 像 越 多 ,正确 识别 人 脸 的 概率 就 越 高 。 下 面 是 一 个 简 
化 的 例子 ， 只 提供 两 个 人 ,每 人 两 幅 图 像 。 调 用 训练 方法 的 代码 为 : 


// 参考 图 像 和 标签 的 向 量 
std: :vector<cv: :Mat> referenceImages; 
std::vector<int> labels; 
// 打开 参考 图 像 
referenceImages.push back(cv::imread("face0_1.png", 
CVv: :IMREAD_ GRAYSCALE) ) ; 
labels.push_back(0); // 编号 为 0 的 人 
referenceImages.push back (cv::imread("face0_2.png", 
Cv: :IMREAD_ GRAYSCALE) ) ; 
labels.push_back(0); // 编号 为 0 的 人 
referenceImages.push back(cv::imread("facel_1.png", 
CV: :IMREAD_ GRAYSCALE) ) ; 
labels.push_back(1); // 编号 为 1 的 人 
referenceImages.push back(cv::imread("facel 2.png", 
CVv: :IMREAD_ GRAYSCALE) ) ; 
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labels.push_back(1); // 编号 为 1 的 人 


// 通过 计算 LBPH 进行 训练 


recognizer->train (referenceImages, labels); 


这 是 所 用 的 图 像 ， 第 一 行 是 编号 为 0 的 人 ,第 二 行 是 编号 为 1 的 人 。 

















轿 $ Reference faces Es 








参考 图 像 的 质量 也 非常 重要 。 此 外 ， 最 好 把 图 像 归 一 化 ， 使 关键 的 面部 特征 处 于 标准 位 置 。 
例如 让 鼻子 在 图 像 中 心 , 同 一 图 像 的 两 只 眼睛 在 同一 水 平 线 上 ,可 以 调用 现成 的 面部 特征 检测 方法 ， 
自动 对 人 脸 图 像 进 行 归 一 化 处 理 。 这 个 例子 中 并 没有 进行 归 一 化 处 理 , 因此 它 的 鲁 棒 性 并 不 高 。 不 
过 即便 如 此 ， 它 已 经 可 以 使 用 了 。 输 入 一 幅 图 像 ， 它 就 可 以 计算 出 图 中 人 脸 对 应 的 人 员 编 号 : 


// 识别 图 像 对 应 的 编号 








recognizer->predict (inputImage, // 人 脸 图 像 
predictedLabel，// 识别 结果 
confidence); // 置信 度 
输入 图 像 如 下 所 示 。 














看 input image a xX 
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识别 器 除了 返回 识别 结果 ,还 返回 了 一 个 置信 度 。 对 于 cv: :face: :LBPHFaceRecognizer， 
置信 度数 值 越 小 ， 识 别 结果 越 可 信 。 这 个 例子 得 到 了 正确 的 识别 结果 (1)， 置 信和 度 的 值 为 90.3。 














14.2.2 ”实现 原理 
为 了 理解 人 脸 识别 方法 的 原理 ， 需 要 解释 两 个 主要 概念 : 图 像 模型 和 分 类 方法 。 


正如 其 名 ，cv: :face: :LBPHFaceRecognizer 算法 使 用 了 LBP 特征 ， 采 用 相对 独立 的 方 
法 描述 图 像 模 式 。 它 是 一 种 局 部 模式 ,把 每 个 像素 转换 为 一 个 二 进 制 数 模型 ,表示 邻近 位 置 的 图 
像 强度 模式 。 为 此 需要 应 用 一 个 简单 的 规则 : 将 一 个 局 部 像素 与 它 的 每 个 邻近 像素 进行 比较 ， 如 
果 它 的 值 大 于 邻近 像素 ， 就 把 对 应 的 位 设 为 0， 否则 设 为 1。 最 简单 也 是 最 常用 的 做 法 是 将 每 个 
像素 与 它 的 8 个 邻近 像素 做 比较 ， 得 到 8 位 模式 ， 例 如 下 面 的 局 部 模式 : 
































87 98 17 
21 26 89 
19 24 90 














应 用 上 述 规则 ， 得 到 以 下 二 进 制 数 值 : 











1 1 0 
0 l 
0 0 l 














从 左上 角 的 像素 开始 顺 时 针 方 向 提取 ， 得 到 二 进 制 串 11011000， 用 它 表 示 中 心 的 像素 。 遍 
历 图 像 中 的 所 有 像素 ， 对 每 个 像素 计算 其 LBP 字 节 ， 即 可 得 到 完整 的 8 位 LBP 图 像 。 这 一 步 由 
下 面 的 函数 实现 : 

// 计算 灰 度 图 像 的 局 部 二 值 模式 


void lbp(const cv::Mat &image, cv::Mat &result) { 





result.create(image.size()，CV_8U); // 必要 时 分 配 空间 


for (int j = 1; j<image.rows - 1; j++) { 
// 逐 行 处 理 (除了 第 一 行 和 最 后 一 行 ) 
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// 输入 行 的 指针 





const uchar* previous = image.ptr<const uchar>(j - 1); 
const uchar* current = image.ptr<const uchar>(j); 
const uchar* next = image.ptr<const uchar>(j + 1); 
uchar* output = result.ptr<uchar>(j); // 输出 行 
for (int i = 1; i<image.cols - 1; i++) { 
// 构建 局 部 二 值 模式 
*output = previous[i - 1] > current[i] ? 1 0; 
*output |= previous[i] > current[i] ? 2 0; 
*output |= previous[i + 1] > current[i] ? 4 0; 
*output |= current[i - 1] > current[i] ? 8 0; 
*output |= current[i + 1] > current[i] ? 16 0; 
*output |= next[i - 1] > current[i] ? 32 0 
*output |= next[i] > current[i] ? 64 0; 
*output |= next[i + 1] > current[i] ? 128 0; 








output++; // 下 一 个 像素 
} 
} 
// 将 未 处 理 的 像素 设 为 0 
result.row(0) .setTo(cv::Scalar (0)); 
result.row(result.rows - 1).setTo(cv::Scalar(0)); 
result.col(0) .setTo(cv::Scalar (0)) 
(result.cols - 1).setTo( 


result.col cv::Scalar (0)); 


} 


在 循环 内 部 ， 将 每 个 像素 与 它 周 围 的 8 个 像素 进行 比较 ， 并 通过 移 位 运算 得 到 每 一 位 的 值 。 
使 用 下 面 的 图 像 : 




















| Original image 一 x 








得 到 LBP 图 像 ， 并 作为 灰 度 图 像 显 示 。 
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由;LBP image -3 x 








表示 成 灰 度 图 像 并 不 是 很 直观 ， 这 里 只 是 用 它 来 说 明 编码 过 程 。 











再 来 看 cv: : face: :LBPHFaceRecognizer 类 , 它 的 create 方法 的 前 两 个 参数 分 别 指定 
了 邻 域 的 大 小 ( 半径 ， 单 位 为 像素 ) 和 维度 ( 圆 上 的 像素 数量 ， 可 用 于 搬 值 )。 把 得 到 的 LBP 
像 分 割 成 一 个 网 格 , 网 格 大 小 由 create 方法 的 第 三 个 参数 指定 。 对 网 格 上 的 每 个 区 块 构建 直方 
图 。 最 后 ， 把 这 些 直 方 图 的 箱子 数组 合成 一 个 大 的 向 量 ， 得 到 全 局 图 像 模型 。 对 于 8x8 的 网 格 ， 
计算 256- 箱 子 直 方 图 ， 得 到 16 384 维 的 向 量 。 
































cv: :face: :LBPHFaceRecognizer 类 的 train 图 数 对 每 个 参考 图 像 都 用 上 述 方法 计算 出 
一 个 很 长 的 向 量 。 每 个 人 脸 图 像 都 可 看 作 是 高 维 空间 上 的 一 个 点 。 识 别 器 用 predict 方法 得 到 
一 个 新 图 像 后 ， 就 能 找到 与 它 距 离 最 近 的 参考 点 。 该 参考 点 对 应 的 标签 就 是 识别 结果 ,它们 的 距 
离 就 是 置信 度 。 这 就 是 最 近邻 分 类 器 的 基本 原理 。 还 有 一 个 因素 需要 考虑 : 如 果 输 入 点 与 最 近 的 
参考 点 之 间 的 距离 太 远 , 就 说 明 它 其 实 并 不 属于 任何 类 别 , 那么 “距离 太 远 ”的 判断 标准 是 什么 ? 
这 由 cv: :face: :LBPHFaceRecognizer 的 create 方法 的 第 四 个 参数 决定 。 


显然 , 这 种 方法 的 原理 很 简单 ,并且 如 果 不 同 的 类 别 在 描述 空间 中 生成 各 自 独立 的 “点 云 ”， 
它 的 效果 就 非常 好 。 另 外 , 它 只 是 从 最 近 的 邻 域 中 读 取 分 类 结果 ,， 因 而 可 以 处 理 多 个 类 别 ， 这 也 
是 它 的 一 个 优势 。 它 的 主要 缺点 是 计算 量 较 大 一 一 要 从 这 么 大 的 空间 中 (参考 点 的 数量 还 可 能 很 
多 ) 找 出 最 近 的 点 ， 需 要 耗费 很 长 时 间 。 此 外 ， 保 存 这 些 参考 点 也 要 耗费 较 大 的 存储 空间 。 
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口 B. Froba 和 A.Ermst 于 2004 年 发 表 在 IEEE conference on Automatic Face and Gesture Recoonition 
上 的 论文 “Face detection with the modified census transform” 介 绍 了 LBP 特征 的 一 个 变种 。 
口 M. Uricar、V. Franc 和 V. Hlavac 于 2012 年 发 表 在 International Conference on Computer 
Vision Theory and Applications 上 的 论文 “Detector of Facial Landmarks Learned by the 
Structured Output SYM” 介 绍 了 一 种 基于 SVM( 详情 请 参见 14.4 节 ) 的 面部 特征 检测 器 。 





14.3 人 脸 定 位 


上 一 节 介绍 了 机 器 学 习 的 几 个 基本 概念 ， 讲 解 了 如 何 通过 选取 不 同类 别 的 样本 构建 分 类 器 。 
根据 上 一 节 的 方法 ,训练 分 类 器 时 只 需 保 存 所 有 样本 的 模型 ， 然 后 在 输入 新 的 实例 时 ， 从 中 找 出 
最 接近 ( 最 邻近 ) 的 样本 ， 从 而 得 到 新 实例 的 标签 。 对 于 大 多 数 机 顺 学 习 算法 ,训练 样 本 是 一 个 
迭代 过 程 , 构建 训练 模型 时 要 循环 遍历 全 部 样本 。 这 样 创建 的 分 类 器 的 效果 会 随 着 样本 的 增加 而 
逐步 提高 。 一 旦 效果 达到 某 个 特定 标准 , 或 者 对 于 当前 训练 集 已 经 无 法 继续 提升 效果 ,就 可 以 终 
止 学 习 过 程 。 本 节 将 介绍 一 种 这 样 的 机 顺 学 习 算 法 ， 即 级 联 增强 分 类 器 。 

但 是 在 讨论 这 种 分 类 器 之 前 ， 我 们 要 先 了 解 一 下 Haar 特征 图 像 模型 。 我 们 知道 ， 一 个 和 鲁 
棒 的 分 类 天 必须 有 一 个 好 的 模型 。 上 一 节 介 绍 的 LBP 就 是 一 种 不 错 的 模型 , 下面 介 绍 男 一 种 常 
用 的 模型 。 






































I 





14.3.1 准备 工作 


想 要 构建 分 类 器 ， 首先 要 组 建 一 个 大 ( 尽量 大 ) 的 图 像样 本 集 ， 每 个 样本 表示 某 种 类 别 的 不 
同 实例 。 研究 表明 , 样本 的 建 模 方 式 对 分 类 顺 的 性 能 有 非常 重要 的 影响 。 通 常 认为 像素 级 别 的 建 
模 方式 过 于 低级 , 难以 鲁 棒 地 表示 每 个 类 别 的 内 在 特性 。 选 用 的 模型 最 好 能 在 多 种 尺度 下 描述 图 
像 的 独特 图 案 。 这 正 是 Haar 特征 ( 有 时 也 称 作 类 Haar 特征 ) 的 目标 ， 因 为 它 基 于 Haar 变换 基 


Haar 特征 定义 了 包含 像素 的 小 型 矩形 区 域 , 然后 用 减法 运算 比较 这 些 和 矩形 。 常 用 的 配置 有 三 
种 ， 即 二 和 矩形 特征 、 三 矩形 特征 和 四 矩形 特征 。 


Er 
| 1 
这 些 特征 可 以 为 任意 大 小 , 可 以 应 用 于 图 像 上 的 任何 区 域 , 例如 下 图 是 应 用 于 人 脸 图 像 的 两 


个 Haar 特征 。 
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构建 Haar 模型 的 步骤 是 ， 先 选取 一 定数 量 的 特定 类 型 、 斥 寸 和 位 置 的 Haar 特征 ， 然 后 将 它 
们 应 用 于 图 像 。 从 选取 的 Haar 特征 中 提取 特征 值 ， 就 构成 了 图 像 模型 。 这 里 的 难点 在 于 如 何 选 
择 这 些 特征 。 实 际 上 ， 有 些 Haar 特征 比 其 他 特征 更 适 于 区 分 物体 类 别 。 例 如 在 对 人 脸 图 像 进行 
分 类 时 ， 最 好 使 用 眼睛 之 间 〈 见 上 图 ) 的 三 矩形 Haar 特征 ， 因 为 它 对 所 有 人 脸 图 像 稳定 地 生成 
高 特征 值 。 可 用 的 Haar 特征 多 达 几 十 万 ， 手 动 挑选 显然 是 很 困难 的 。 因 此 ， 我 们 要 采用 机 带 学 
习 方 法 ， 为 特定 的 类 别 选择 最 适合 的 特征 。 














14.3.2 ”如 何 实现 


本 节 将 介绍 如 何 用 OpenCV 构建 增强 型 级 联 特征 , 并 用 它 创建 二 类 分 类 器 。 首 先 解释 一 下 相 
关 术 语 。 所 谓 二 类 分 类 噩 ， 就 是 能 区 分 出 属于 茶 个 类 的 实例 (例如 人 脸 图 像 ) 和 不 属于 这 个 类 的 
实例 (例如 非 人 脸 图 像 ) 的 分 类 器 。 这 些 实例 分 别称 为 正 样本 ( 即 人 脸 图 像 ) 和 负 样 本 ( 即 非 人 
脸 图 像 )， 后 者 又 称 为 背景 图 。 本 节 介 绍 的 分 类 咒 由 多 个 简单 分 类 器 按 一 定 的 顺序 级 联 而 成 。 级 
联 中 的 每 个 阶段 根据 小 规模 的 特征 子 集 取得 特征 值 , 并 根据 这 个 特征 值 快速 地 判断 , 决定 拒绝 或 
接受 这 个 目标 。 如 果 每 个 阶段 的 判断 都 比 上 一 个 阶段 更 加 精确 ， 使 性 能 得 到 提升 ( 增强 )， 那 么 
整个 级 联 分 类 器 都 会 增强 。 这 种 做 法 的 主要 优势 在 于 , 级 联 中 前 面 的 阶段 只 进行 一 些 简单 的 测试 ， 
可 以 快速 排除 掉 那 些 明 显 不 属于 指定 类 别 的 实例 。 在 早期 阶段 将 它们 排除 掉 后 , 通过 扫描 图 像 搜 
索 某 类 物体 时 , 大 多 数 待 测试 的 子 窗口 都 将 不 属于 指定 类 别 , 因而 可 以 提高 整个 级 联 分 类 器 的 速 
度 。 这 样 ， 只 有 少数 窗口 需要 经 过 全 部 阶段 才能 得 到 接受 或 排除 的 结论 。 


为 了 训练 针对 特定 类 别 的 增强 型 级 联 分 类 器 ，OpenCyV 提供 了 一 个 软件 工具 ， 可 以 完成 全 部 
必需 的 操作 。 安装 该 软件 后 , 在 对 应 的 bin 目录 下 有 两 个 可 执行 文件 , 即 opencv_createsamples.exe 
和 opencv _ traincascade.exe。 要 确保 系统 的 PATH 指向 这 个 目录 , 以 便 能 在 任何 位 置 启动 这 些 工具 。 
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训练 分 类 器 的 第 一 件 事 就 是 选取 样本 。 正 样本 就 是 含有 目标 类 的 实例 的 图 像 。 下 面 是 一 个 简 
单 的 例子 ， 要 训练 一 个 能 识别 停止 路 标的 分 类 器 。 选 取 的 一 些 正 样本 如 下 图 所 示 。 








正 样本 清单 必须 存储 在 一 个 文本 文件 中 , 这 里 的 文件 名 为 stop.txt。 文件 中 包含 图 像 文件 名 和 
和 矩 形 的 坐标 : 











stop00.png 1 0 0 64 64 

stop0l.png 1 0 0 64 64 

stop02.png 1 0 0 64 64 

stop03.png 1 0 0 64 64 

stop04.png 1 0 0 64 64 

stop05.png 1 0 0 64 64 

stop06.png 1 0 0 64 64 

stop07 ,png 1 0.0 4 64 

图 像 文 件 名 后 的 第 一 个 数字 表示 图 像 中 正 样 本 的 数量 , 紧 接 着 的 两 个 数字 表示 包含 正 样 本 的 
和 矩形 的 左上 角 坐 标 , 然后 是 矩形 的 宽度 和 高 度 。 在 这 个 例子 中 ， 因 为 已 经 从 原始 图 像 中 提取 出 了 











正 样 本 ， 所 以 每 个 文件 只 有 一 个 样本 ， 且 左上 角 坐 标 都 是 (0,0)。 生 成 这 个 文件 后 ， 就 可 以 调用 提 
取 工 具 生成 正 样本 文件 。 


opencv_createsamples -info stop.txt -vec stop.vec -w 24 -h 24 -num 8 


上 述 操作 的 输出 文件 是 stop.vec， 文 件 存储 了 文本 文件 中 指定 的 全 部 正 样本 。 注 意 ， 这 里 的 
样本 不 寸 变 小 了 ， 从 原始 尺寸 (64x64) 变 为 了 (24x24)。 提 取 工 具 会 根据 指定 的 下 寸 缩放 样本 。 通 
常情 况 下 ，Haar 特征 更 适合 使 用 较 小 的 模板 ,但 也 要 看 具体 的 情况 。 


负 样 本 就 是 背景 图 像 ， 即 没有 包含 所 需 类 别 的 实例 ( 在 本 例 中 就 是 没有 停止 路 标 )。 但 是 这 
些 图 像 应 该 包含 分 类 融 所 需 的 各 种 内 容 。 没有 关于 需要 多 少 人 负 样 本 图 像 的 要 求 , 训练 时 会 从 中 随 
机 提取 。 我 们 用 下 面 的 图 片 作 为 背景 图 像 。 
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图 One negative sample a | 





准备 好 正 样本 和 负 样 本 后 ， 就 可 以 开始 训练 级 联 分 类 器 了 。 调 用 方法 为 : 





opencv_traincascade -data classifier -vec stop.vec 
-bg neg.txt -numPos 9 -numNeg 20 
-numStages 20 -minHitRate 0.95 
-maxFalseAlarmRate 0.5 -w 24 -h 24 


这 些 参数 的 意义 将 在 后 面 说 明 。 需 要 注意 的 是 , 训练 过 程 所 需 的 时 间 可 能 会 很 长 ; 有 些 复杂 
的 训练 过 程 包 含 数 千 个 样本 ,可 能 会 耗费 几 天 的 时 间 。 在 运行 过 程 中 ,每 执行 完 一 个 阶段 都 会 输 
出 性 能 报告 。 其 中 需要 特别 关注 的 是 当前 命中 率 ( hitrate，HR ); 这 个 值 表示 当前 被 接受 的 正 样 
本 的 百分比 ( 即 当 前 被 识别 为 正 实例 ， 又 称 真正 样本 )， 这 个 数值 越 接近 1.0 越 好 。 此 外 还 会 有 
当前 虚 警 率 〈 false alarm rate，FA )， 它 表示 被 误 认 为 正 实例 的 负 样 本 ( 又 称 假 正 样本 )， 这 个 数 
值 越 接近 0.0 越 好 。 每 个 阶段 的 每 个 特征 都 会 显示 这 两 个 数值 。 


这 个 例子 比较 简单 ， 只 需 运 行 几 秒 钟 。 分 类 器 的 训练 结果 存储 在 一 个 XML 文件 里 。 到 这 一 
步 , 分 类 器 就 已 经 可 以 使 用 了 ! 向 它 提交 任何 样本 ,都 可 以 得 到 判断 结果 ， 表 明 该 样本 是 正 样本 


这 个 例子 用 了 24x24 的 图 像 训练 分 类 器 ， 但 在 一 般 情 况 下 ， 我 们 需要 能 在 图 像 (无 论 大 小 ) 
的 全 部 位 置 找 出 指定 类 的 实例 。 为 此 就 必须 扫描 图 像 ， 并 提取 出 任意 尺寸 的 样本 窗口。 如 果 分 类 
器 足够 精准 , 就 只 会 把 包含 特定 物体 的 窗口 作为 正 样 本 。 但 这 仅 限于 正 样本 的 尺寸 都 比较 一 致 的 
情况 。 如 果 样 本 尺寸 不 一 致 ， 就 必须 构建 一 个 图 像 金字 塔 , 在 每 一 层 以 固定 比例 缩小 图 像 。 从 上 
往 下 遍历 金字 塔 , 物体 会 逐 层 变 大 , 肯定 会 有 一 层 与 被 训练 的 样本 大 小 匹配 。 这 个 过 程 非常 漫长 ， 
好 在 OpenCV 已 经 提供 了 实现 这 个 过 程 的 类 。 它 的 用 法 非常 简单 ， 首 先 装载 对 应 的 XML 文件 ， 
构建 分 类 器 : 

cv::CascadeClassifier cascade; 

if (!cascade.load("stopSamples/classifier/cascade.xml")) { 

std::cout << "Error when loading the cascade classfier!" 
<< std::endl; 


return -1; 


} 
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然后 针对 输入 图 像 调用 检测 函数 


cascade.detectMultiScale(inputImage，// 输入 图 像 





detections, // 检测 结果 

Tl // 缩小 比例 

25 // 所 需 近 邻 数量 

0 ， // 标志 位 (不 用 ) 
cv::Size(48, 48), // 检测 对 象 的 最 小 尺寸 
cv::Size(128，128)); // 检测 对 象 的 最 大 尺寸 


结果 为 由 cv: :Rect 的 实例 组 成 的 向 量 。 只 要 在 输入 图 像 上 夯 出 这 些 矩 形 , 就 可 以 显示 检测 


结果 : 


for (int 


i = 0; i < detections.size(); I++) 


cv::rectangle(inputImage, detections[i], 


用 一 幅 图 像 测试 这 个 分 类 絮 ， 得 到 如 下 结 采 。 


SVCalar(255, 205055. LO hs 











轿 和 Stop sign detection = 

















14.3.3 ”实现 原理 


根据 前 面 的 介绍 , 我 们 知道 可 以 用 某 类 物体 的 正 样本 和 负 样 本 构建 OpenCV 级 联 分 类 器 。 现 
在 来 回顾 一 下 用 于 训练 级 联 分 类 器 的 算法 的 主要 步 又。 前 面 用 Haar 特征 ( 详情 请 参见 14.1 节 ) 


训练 了 一 个 级 有 





分 类 器 ， 下 面 你 将 看 到 ， 任 何其 他 的 单一 特 和 











F 都 能 用 于 构建 增强 型 级 联 分 类 器 。 





增强 型 学 习 的 理论 和 概念 非常 复杂 ， 这 里 不 展开 讨论 ， 相 关 资 料 可 参见 14.3.5 节 。 





首先 来 回顾 一 下 文 撑 增 强 型 级 联 分 类 器 的 两 个 原理 。 第 一 个 原理 ,将 多 个 弱 分 类 器 ( 即 基于 
单一 特征 的 分 类 器 ) 组 合 起 来 ,可 以 形成 一 个 强 分 类 器 。 第 二 个 原理 ， 因 为 机 器 视觉 中 的 负 样 本 
比 正 样本 多 得 多 , 所 以 可 以 把 分 类 过 程 分 为 多 个 阶段 ， 以 提高 效率 。 前 面 的 阶段 可 以 快速 排除 掉 




















明显 不 符合 要 求 的 实例 ,后 面 的 阶段 可 以 处 理 更 复杂 的 样本 ， 








进行 更 精确 的 判断 。 下 面 将 基于 这 
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两 个 原理 解释 增强 型 级 联 学 习 算法 ， 并 使 用 一 种 最 常用 的 增强 类 型 ， 即 AdaBoost。 此 外 ， 还 将 
对 opencv_traincascade 工具 的 部 分 参数 进行 说 明 。 


本 市 将 利用 Haar 特征 构建 弱 分 类 器 。 每 应 用 一 个 Haar 特征 〈 指定 类 型 、 大 小 和 位 置 )， 就 
得 到 一 个 特征 值 。 只 要 找到 根据 特征 值 区 分 负 实 例 和 正 实例 的 最 佳 闵 值 , 就 得 到 了 一 个 单一 分 类 
器 。 为 找到 这 个 最 佳 阔 值 ,就 需要 一 批 正 样本 和 和 负 样 本 ( opencv_traincascade 的 参数 -numPos 
和 -numNeg 分 别 表示 所 用 正 样 本 和 负 样 本 的 数量 )。 因 为 可 用 的 Haar 特征 非常 多 , 所 以 需要 逐个 
检查 并 选取 最 适用 于 区 分 样本 的 特征 。 显 然 ， 这 种 非常 基本 的 分 类 器 可 能 会 出 错 ( 即 对 一 些 样本 
进行 错误 分 类 )， 因 此 需要 构建 多 个 分 类 器 ; 每 当 要 寻找 分 类 效果 最 好 的 新 Haar 特征 时 ， 就 增加 
一 个 分 类 器 。 在 迭代 时 要 重点 关注 被 错误 分 类 的 样本 ,评价 分 类 性 能 时 要 给 这 些 样本 更 高 的 权 值 。 
这 样 就 得 到 了 一 批 单一 分 类 器 ,然后 把 这 些 弱 分 类 器 进行 加 权 累 计 ( 性 能 较 好 的 分 类 器 获得 更 高 
的 权 值 )， 继 而 构建 一 个 强 分 类 器 。 采 用 这 种 方法 将 数 百 个 单一 特征 组 合 起 来 ， 即 可 得 到 一 个 性 
能 良好 的 强 分 类 器 。 


级 联 分 类 器 的 核心 思想 是 在 早期 排除 掉 不 符合 要 求 的 样本 。 我 们 不 希望 在 构建 强 分 类 器 时 使 
用 大 量 的 弱 分 类 器 ， 而 是 要 找到 只 用 少量 Haar 特征 的 极 小 型 分 类 器 ， 以 便 快 速 排除 明显 的 负 样 
本 ， 并 保留 全 部 正 样本 。AdaBoost 的 典型 形式 就 是 通过 统计 假 负 样 本 ( 被 看 作 负 样本 的 正 样本 ) 
和 假 正 样本 ( 被 看 作 正 样本 的 负 样 本 ) 的 数量 ,使 分 类 错误 的 总 数 最 小 化 。 这 种 情况 下 ,需要 大 
多 数 (最 好 全 部 ) 正 样 本 能 被 正确 分 类 ， 以 降低 假 正 率 。 好 在 AdaBoost 是 可 以 调节 的 ， 能 使 真 
正 样本 的 可 靠 性 更 高 。 因 此 ， 训 练 级 联 分 类 絮 的 每 个 阶段 都 必须 设置 两 个 约束 条 件 : 最 小 命中 率 
和 最 大 虚 警 率 ， 可 以 通过 在 opencv_traincascade 中 设置 参数 -minHitRate (默认 为 0.995 ) 
和 -maxFalseAlarmRate (默认 为 0.5 ) 实现 。 只 有 满足 了 这 两 个 性 能 指标 ， 才 会 在 这 个 阶段 加 
入 Haar 特征 。 设 置 的 最 小 命中 率 必 须 足 够 大 ， 以 确保 正 实例 能 顺利 进入 下 一 阶段 。 注 意 ， 如 果 
一 个 阶段 排除 了 正 实例 ,这 个 错误 就 无 法 修复 。 因 此 ,为 了 避免 分 类 需 的 生成 过 程 太 复杂 ， 要 把 
最 大 虚 警 率 设 置 得 高 一 点 ， 否 则 在 训练 阶段 就 需要 大 量 Haar 特征 才能 满足 性 能 指标 ， 这 违背 了 
早期 排除 和 快速 计算 的 初衷。 


一 个 好 的 级 联 分 类 器 , 前 期 阶段 的 特征 数 要 很 少 , 到 后 期 再 逐步 增加 ,在 opencv_traincascade 
工具 中 , 用 参数 -maxweakcount ( 默认 值 100 ) 设 置 每 个 阶段 的 最 大 特征 数 , 用 -numstages ( 默 
认 值 20 ) 设置 阶段 的 个 数 。 


每 开启 一 个 新 的 训练 阶段 ,都 要 选取 新 的 负 样 本 ,这 些 负 样本 是 从 背景 图 中 提取 的 。 这 里 的 
难点 在 于 ， 要 找 出 通过 了 前 面 所 有 阶段 的 负 样 本 ( 即 被 错误 地 认 作 正 样本 )。 完 成 的 阶段 越 多 ， 
找 出 这 种 负 样 本 的 难度 就 越 大 。 正 因为 如 此 ,背景 图 的 种 类 一 定 要 多 ， 这 一 点 很 重要 。 接 着 ， 可 
以 从 这 些 难 以 分 类 的 样本 〈 因为 它们 与 正 样本 非常 相似 ) 中 提取 出 小 块 。 另 外 需要 注意 ， 如果 在 
一 个 阶段 中 , 在 不 需要 增加 新 特征 的 情况 下 就 能 满足 两 个 性 能 指标 , 那 就 在 此 时 停止 级 联 分 类 器 
的 训练 〈 这 个 分 类 器 已 经 能 够 使 用 ; 也 可 以 加 入 更 难 的 样本 ， 重 新 训练 )。 反 之 ， 如 果 这 个 阶段 
无 法 满足 性 能 指标 ， 也 应 该 停止 训练 ; 这 时 应 该 降低 性 能 指标 ， 重 新 训练 。 
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很 明显 ,一 个 包含 个 阶段 的 级 联 分 类 器 的 整体 性 能 至 少 要 好 于 minHitRate 和 maxFalse 
AlarmRate"。 这 是 因为 在 级 联 分 类 器 中 ， 每 个 阶段 都 是 在 前 面 阶段 的 基础 上 构建 的 。 例 如 
opencv_traincascade 使 用 默认 参数 时 ， 级 联 分 类 器 的 精度 (命中 率 ) 预计 为 0.99520， 虚 警 
率 预计 为 0.520。 这 意味 着 90% 的 正 实例 会 被 正确 地 标识 ，0.001% 的 负 样 本 会 被 错误 地 标识 为 正 
样本 。 注意 ， 有 少数 正 样本 会 随 着 训练 阶段 的 推进 而 丢失 ， 因 此 一 定 要 提供 比 每 个 阶段 所 需 数量 
更 多 的 正 样本 。 在 上 述 例子 中 ，numPos 应 该 设 为 可 用 正 样 本 数量 的 90%。 


训练 时 该 使 用 多 少 样本 ? 这 个 问题 很 重要 。 昌 然 具 体 的 数字 很 难 确定 , 但 是 很 明显 ， 正 样本 
的 数量 必须 足够 多 ,以 覆盖 识别 对 象 的 各 种 外 观 。 背 景 图 也 应 该 采用 相关 的 图 片 ， 比 如 在 识别 停 
止 路 牌 的 例子 中 ,我 们 选用 了 城市 背景 的 图 片 ， 因 为 这 种 地 方 很 可 能 出 现 路 牌 。 根 据 经 验 ， 通常 
采用 numNeg=2*numPos， 但 这 取决 于 具体 情况 。 


最 后 ， 本 节 解 释 了 如 何 用 Haar 特征 构建 级 联 分 类 器 。Haar 特征 也 可 以 用 其 他 特征 来 构建 


例如 上 一 节 介绍 的 局 部 二 值 模 式 , 或 者 下 一 节 将 介绍 的 方向 梯度 直方 图 。 在 opencv_traincascade 
中 使 用 -featureType， 可 以 选用 其 他 类 型 的 特征 。 























> 








14.3.4 扩展 阅读 


OpenCV 中 有 一 些 预先 训练 好 的 级 联 分 类 器 , 可 用 于 检测 人 脸 、 脸 部 特征 、 人 类 和 其 他 物体 。 
这 些 级 联 分 类 器 以 XML 文件 的 形式 存储 在 源 文件 的 data 目录 下 。 


用 Haar 级 联 实现 人 脸 检 测 


经 过 预先 训练 的 模型 可 以 直接 使 用 。 只 需 用 相应 的 XML 文件 ,创建 cv: :CascadeClassifier 
类 的 实例 : 











Cv::CascadeClassifier faceCascade; 
if (!faceCascade.load("haarcascade_ frontalface default.xml")) { 
std::cout << "Error when loading the face cascade classfier!" 
<< std::endl; 
return -1; 


} 
然后 用 Haar 特征 检测 人 脸 ， 代 码 为 : 


faceCascade.detectMultiScale(picture，// 输入 图 像 











detections, // 检测 结果 
下 尝 直 7 // 缩小 比例 
3 ， // 所 需 近 邻 数量 
0 ， // 标志 位 (不用) 
cv::Size(48, 48), // 检测 对 象 的 最 小 尺寸 
cv::Size(128, 128)); // 检测 对 象 的 最 大 尺寸 
// 在 图 像 上 画 出 检测 结果 
for (int i = 0; i < detections.size(); I++) 


cv::rectangle (picture, detections[il], 
CV alar(255, 2505 22505) hs 
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可 以 用 同样 的 过 程 检测 眼睛 ， 得 到 如 下 结 

















Detection results x 








14.3.5 ”参阅 





口 9.3 节 介 绍 了 SURF 描述 子 ， 它 也 使 用 了 类 似 Haar 的 特征 。 
口 P Viola 和 M. Jones 于 2001 年 发 表 在 Computer Vision and Pattern Recognition conference 上 











的 论文 “Rapid object detection using a boosted cascade of simple features” 是 有 关 增 强 型 级 


联 分 类 器 和 Haar 特 行 








F 的 经 典 论文 。 


口 Y. Freund 和 及.E.Schapire 于 1999 年 发 表 在 Journal ofJapanese Society for Artificial Intelligence 
上 的 论文 “A short introduction to boosting” 介 绍 了 分 类 器 增强 的 理论 基础 。 
口 S. Zhang 、R. Benenson 和 B. Schiele 于 2015 年 发 表 在 JIEEE Conference on Computer Vision 





and Pattern Recognition 上 的 论文 “Filtered Channel Features for Pedestrian Detection ”介绍 


了 与 Haar 类 似 的 特 生 





14.4 行人 检测 


E， 可 进行 极其 准确 的 检测 。 


本 节 将 介绍 另 一 种 机 需 学 习 方法 ， 即 支持 向 量 机 (Support Vector Machines，SVM )， 它 可 以 
利用 训练 数据 生成 非常 精确 的 二 类 分 类 器 。 支持 癌 量 机 可 以 解决 很 多 计算 机 视觉 问题 , 已 经 得 到 
了 广泛 的 应 用 。 它 使 用 一 个 数学 公式 来 解决 分 类 问题 ， 该 公式 用 于 解决 高 维 空间 的 几何 学 问题 。 


本 节 还 将 介绍 一 种 新 的 图 像 模 型 ， 它 常 与 SVM 组 合 使 用 ， 构 建 鲁 棒 的 目标 检测 器 。 





14.4.1 准备 工作 




















物体 的 图 片 主 要 靠 形状 和 纹理 区 分 彼此 ， 这 些 特征 可 以 用 方向 梯度 直方 图 ( Histogram of 
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Oriented Gradients，HOG ) 模型 表示 。 正 如 其 名 ， 这 种 模型 的 基础 就 是 图 像 梯度 的 直方 图 ; 具体 
来 说 是 梯度 方向 的 分 布 图 , 因为 我 们 更 加 关注 形状 和 纹理 。 此 外 , 为 了 观察 这 些 梯度 的 空间 分 布 ， 
需要 把 图 像 划 分 成 网 格 ， 并 以 此 计算 多 个 直方 图 。 


构建 HOG 模 型 的 第 一 步 就 是 计算 图 像 的 梯度 ,把 图 像 分 割 成 小 的 单元 格 ( 例如 8 像素 x8 像 素 )， 
并 针对 每 个 单元 格 计算 方向 梯度 直方 图 ,方向 的 值 会 被 分 割 成 多 个 箱子 ,通常 只 考虑 梯度 的 方向 ， 
不 考虑 正人 负 ( 称 作 无 符号 梯度 )。 这 里 的 方向 值 范 围 是 0 度 ~180 度 。 采 用 9 个 箱子 的 直方 图 , 方 
向 值 的 分 割 间距 为 20 度 。 每 个 单元 格 的 梯度 向 量 产生 一 个 箱子 , 该 箱子 的 权重 对 应 梯度 的 幅 值 。 


然后 把 这 些 单 元 格 组 合成 多 个 区 块 ， 每 个 区 块 包含 固定 数量 的 单元 格 。 图 像 上 的 区 块 可 以 互 
相 重 炙 ( 即 可 以 共用 一 些 单元 格 ), 例如 由 2x2 的 单元 格 组 成 的 一 个 区 块 , 每 个 单元 格 都 可 以 定义 
一 个 区 块 ; 也 就 是 说 ， 区 块 的 步 长 为 一 个 单元 格 ， 每 个 单元 格 ( 除了 每 行 的 最 后 一 个 ) 属于 两 个 
区 块 。 如 果 区 块 的 步 长 是 两 个 单元 格 ， 那 么 区 块 之 间 就 不 会 重 毒 。 每 个 区 块 包含 特定 数量 的 单元 
格 直方 图 (例如 2x2 的 区 块 有 4 个 直方 图 )。 这 些 直 方 图 串联 起 来 就 构成 了 一 个 很 长 的 向 量 (假设 
每 个 直方 图 有 9 个 箱子 , 4 个 直方 图 就 构成 长 度 为 36 的 向 量 ), 为 了 使 模型 具有 可 比 性 , 要 对 向 量 
做 归 一 化 处 理 (例如 将 每 个 元 素 除 以 向 量 幅 值 )。 最 后 将 所 有 区 块 的 向 量 ( 逐 行 ) 串联 起 来 ,组 成 
一 个 非常 大 的 向 量 (假设 图 像 为 64x64， 每 个 单元 格 为 8x8， 每 个 区 块 为 16x16， 步 长 为 1 个 单元 
格 ， 共 得 到 7 个 区 块 ; 最 终 得 到 向 量 的 维度 是 49x36=1764 )。 这 个 大 向 量 就 是 图 像 的 HOG 模型 。 

由 此 可 见 ， 图 像 HOG 模型 的 向 量 的 维度 非常 高 (14.4 节 将 介绍 如 何 显 示 HOG 模型 )。 这 个 
向 量 就 代表 了 图 像 的 特征 ， 可 用 于 各 种 物体 图 像 的 分 类 。 为 此 , 我 们 需要 一 种 能 处 理 这 种 高 维 向 
量 的 机 器 学 习 方 法 。 
















































































14.4.2 ”如 何 实现 


本 节 将 构建 男 一 种 停止 路 牌 识别 器 。 这 只 是 一 个 简单 的 例子 ， 用 来 说 明 机 器 学 习 的 过 程 。 和 
节 一 样 ， 第 一 步 是 选取 训练 用 的 样本 。 这 次 使 用 的 正 样本 如 下 图 所 示 。 








上 
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人 负 样 本 (很 少 ) 如 下 图 所 示 。 





看 ;Negative samp... 





下 面 介 绍 如 何 用 SVM ( cv: :svm 类 ) 区 分 这 两 种 类 别 的 样本 。 为 构建 鲁 棒 的 分 类 器 ， 需 要 
用 本 节 介 绍 的 HOG 来 表示 这 些 样 本 。 具 体 来 说 ， 用 8x8 的 区 块 、2x2 的 单元 格 、 步 长 为 1 个 单 


元 格 : 


CVv: :HOGDescriptor hogDesc (positive.size 
cv::Size(8, 8 
cv::Size(4, 4 
cv::Size(4, 4 
9) 


窗口 大 小 
区 块 大 小 
区 块 步 长 
单元 格 大 小 
箱子 数量 





样本 为 64x64， 采 用 9 箱 直方 图 , 产生 的 HOG 向 量 ( 共 225 个 区 块 ) 大 小 为 8100。 对 每 个 
样本 计算 描述 子 ， 并 转换 成 单一 矩阵 ( 每 行 一 个 HOG ): 





// 计算 第 一 个 描述 子 
std::vector<float> desc; 


hogDesc.compute(positives[0], desc); 


// 样本 描述 子 矩 阵 
int featureSize = 
int numberOfSamples = 


desc.size(); 
positives.sizel() 


// 创建 存储 样本 HOG 的 给 阵 
cv::Mat samples (numberOfSamples, 


// 用 第 一 个 描述 子 填 第 一 行 


for (int i = 0; i < featureSize; I++) 
samples.ptr<float>(0) [i] = desc[i]; 

// 计算 正 样 本 的 描述 子 

for (int j] = 1; j < positives.size(); j++) 
hogDesc.compute(positives[j], desc); 
// 用 当前 描述 子 填 下 一 行 
for (int i = 0; i < featureSize; i++) 

samples.ptr<float>(j)[i] = desc[il]; 

} 

// 计算 负 样本 的 描述 子 

for (int j] = 0; j < negatives.size(); j++) 
hogDesc.compute (negatives[j], desc); 





featureSize, 


+ negatives.size(); 


CV_32FC1);} 


{ 


{ 
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// 用 当前 描述 子 填 下 一 行 
for (int i = 0; i < featureSize; i++) 
samples.ptr<float>(j + positives.size())[i] = desc[il]; 


} 

计算 第 一 个 HOG 以 取得 描述 子 大 小 ， 并 创建 描述 子 和 矩阵 。 然 后 创建 第 二 个 和 矩阵， 包含 每 个 
样本 的 标签 。 这 里 前 面 几 行 是 正 样本 〈 标签 肯定 为 1)， 后 面 几 行 是 负 样 本 (标签 为 -1 ): 

// 创建 标签 


cv::Mat labels (numberOfSamples, 1, CV_32SC]1); 
// 正 样 本 的 标签 























labels.rowRange (0, positives.size()) = 1.0; 
// 负 样本 的 标签 
labels.rowRange (positives.size(), numberOfSamples) = -1.0; 


x 








下 一 步 是 构建 SVM 分 类 器 ， 用 于 训练 ， 还 要 选择 SVM 的 类 型 和 选用 的 内 核 ( 后 面 会 解 有 
这 些 参数 ): 


// 创建 SVM 分 类 器 

CVTTPEECCvESmle VM Sv = CViImL er SVM oreate()s 
svm->setType (cv: :ml::SVM::C_SVC); 
svm->setKernel (cv: :ml::SVM: :LINEAR); 


现在 可 以 开始 训练 了 。 首 先 在 分 类 需 中 输入 带 标签 的 样本 ， 并 调用 train 方法 : 


// 准备 训练 数据 
Cv::Ptr<cv::ml::TrainData> trainingData = 
cv::ml::TrainData: :create(samples, 
Cv::ml::SampleTypes: :ROW_SAMPLE, labels); 


Ht 





// SVM 训练 
svm->train (trainingData); 


训练 过 程 结 束 后 ,就 可 以 向 分 类 器 提供 未 知 样本 , 分 类 融会 判断 出 它 的 类 别 ( 这 里 用 四 个 样 
本 做 测试 ); 


cv::Mat queries(4, featureSize, CV_32FC1); 





// 每 行 填 入 查询 描述 子 
hogDesc .compute(cv: :imread("stop08.png"， 
CVv: :IMREAD_ GRAYSCALE), desc); 
for (int i = 0; i < featureSize; i++) 
queries.ptr<float>(0) [i] = desc[i]; 
hogDesc.compute(cv::imread("stop09 .png", 
Cv: :IMREAD_ GRAYSCALE), desc); 
for (int i = 0; i < featureSize; i++) 
queries.ptr<float>(1)[i] = desc[il]; 
hogDesc.computel(cv::imread ("neg08.png", 
Cv: :IMREAD_ GRAYSCALE), desc); 
for (int i = 0; i < featureSize; i++) 
queries.ptr<float>(2)[i] = desc[il]; 
hogDesc.computel(cv::imread ("neg09 .png", 
CVv: :IMREAD_ GRAYSCALE), desc); 





302 第 14 章 ”实用 案例 





for (int i = 0; i < featureSize; i++) 
queries.ptr<float>(3)[i] = descl[il]; 
cv::Mat predictions; 


// 测试 分 类 器 
svm->predict (queries, predictions); 


fOr (Lnt? 1 Er 0 ei CM 
St OoOul Ze "OeLY TT Ke LT Ce 
((predictions.at<float>(i,) < 0.0)? 
"Negative" : "Positive") << std::endl; 


如 果 训 练 分 类 器 的 样本 具有 代表 性 ， 它 就 应 该 能 够 对 新 样本 做 出 正确 的 判断 。 


14.4.3 ”实现 原理 


在 这 个 识别 停止 路 牌 的 案例 中 ，8100 维 HOG 空间 中 的 一 个 点 表示 一 个 实例 。 维 度 这 么 高 的 
空间 显然 是 不 可 能 直接 显示 的 , 但 是 支持 向 量 机 的 本 质 是 要 得 到 一 条 边界 , 用 以 分 割 属于 一 个 类 
和 属于 其 他 类 的 点 集 。 具 体 来 说 , 这 条 边界 其 实 就 是 一 个 单一 的 超 平面 。 将 二 维 空 间 中 的 实例 用 







































































二 维 点 来 表示 就 很 容易 理解 了 ， 这 时 的 超 平面 就 是 一 条 直线 。 
y 























显然 ， 这 只 是 一 个 简化 的 例子 。 但 是 从 概念 上 讲 ， 二 维 空间 和 8100 维 空间 的 处 理 方法 是 一 
fF 的 。 上 面 的 图 片 说 明了 如 何 用 一 条 直线 正确 地 分 割 两 种 类 别 的 点 。 在 这 个 例子 中 ,有 很 多 直线 
可 以 作为 分 割 线 ， 问题 在 于 如 何 选 择 最 佳 的 直线 。 回 答 这 个 问题 前 要 先 明白 , 创建 分 类 费时 使 
用 的 样本 只 是 实际 应 用 中 可 能 遇 到 的 实例 的 一 小 部 分 。 因 此 分 类 圳 不 仅 要 能 够 正确 地 分 割 现 有 样 
本 ， 还 要 能 对 新 增 的 实例 做 出 最 佳 判 断 。 这 一 概念 通常 叫 作 分 类 器 的 泛 化 能 力 。 直 观点 看 ,我 们 
认为 分 割 超 平面 应 该 在 两 个 类 的 中 间 , 到 两 边 的 距离 相等 。 如 果 用 更 正式 的 语言 来 说 , 根据 SVM 
理论 , 超 平 面 与 预定 义 边界 之 间 的 边缘 应 该 达到 最 大 化 。 边 缘 的 定义 为 , 分 割 超 平 面 和 最 近 的 正 
样本 点 之 间 的 距离 ， 加 上 超 平面 与 最 近 的 负 样 本 点 之 间 的 距离 。 这 些 最 近 的 点 (计算 边缘 的 点 ) 
称 作 支持 向 量 。 根 据 SVM 的 数学 原理 ， 有 一 个 优化 函数 可 以 标识 出 这 些 支 持 向 量 。 




















开 入 
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但 是 实际 的 分 类 问题 不 可 能 那么 简单 。 如 果 样 本 点 的 分 布 如 下 图 所 示 ， 该 如 何 处 理 ? 


bX 


仅 
LX 








这 种 情况 下 ,已 经 不 能 用 简单 的 超 平面 ( 就 是 本 例 中 的 直线 ) 来 分 割 样本 。 为 此 ，SVM 引 








入 了 人 工 变量 ,通过 某 些 非 线性 变换 ， 在 更 高 的 维度 空间 求解 问题 。 在 上 述 例子 中 ,可 考虑 把 与 
原点 的 距离 作为 附加 变量 ， 即 计算 每 个 样本 点 的 >= sqrt(x +y)。 现 在 已 经 转换 为 三 维 空间 ; 为 








了 简化 ， 只 画 出 (x, x) 平 面 上 的 点 : 




















显然 , 现在 已 经 可 以 用 单一 的 超 平面 来 分 割 样本 点 了 。 这 意味 着 必须 在 新 的 维度 空间 中 匹配 


支持 向 量 。 在 SVM 中 ， 并 不 需要 把 全 部 点 都 转换 到 新 的 维度 空间 ， 只 需要 定义 一 种 方法 ， 衡 量 
样本 点 到 超 平面 在 高 维 空间 中 的 距离 。SVM 定义 了 一 些 内 核 函 数 ， 可 以 计算 这 个 距离 ， 而 且 不 
需要 计算 样本 点 在 高 维 空间 中 的 坐标 。 它 使 用 了 一 个 数学 技巧 ,可 以 在 (人 为 的 ) 高 维 空间 中 快 
速 计算 出 能 产生 最 大 边缘 值 的 支持 向 量 。 正 因为 如 此 ,在 使 用 支持 向 量 机 时 必须 指定 所 用 的 内 核 。 
使 用 了 这 些 内核 ， 才 能 把 非 线性 分 割 转换 成 内 核 空间 的 分 割 。 


不 过 有 一 点 非常 重要 。 因 为 支持 向 量 机 经 常用 来 处 理 非常 高 的 维度 空间 ( 例如 前 面 的 8100 
维 ) 内 的 特征 , 可 以 用 单一 超 平面 分 割 样本 的 概率 就 非常 大 。 因此 最 好 不 要 使 用 非 线性 的 内 核 ( 准 

















确 地 说 ， 就 是 要 使 用 线性 内 核 ， 即 cv: :ml : :SVM: :LINEAR )， 不 要 在 原始 的 特征 











空间 内 处 到 





E 问 
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题 ， 这样 分 类 器 的 计算 会 比较 简单 。 但 对 于 更 加 复杂 的 分 类 问题 ， 非 线性 内 核 仍 是 非常 有 效 的 工 
具 。OpenCy 提供 了 一 批 标准 内 核 ( 如 径 向 基 函 数 、sigmoia 函数 等 )， 它 们 的 作用 是 把 样本 转 
换 到 更 大 的 非 线性 空间 ， 使 它们 能 被 一 个 超 平 面 分 制 。SVM 有 很 多 种 类 ， 最 常见 的 是 C-SVM ， 
它 会 对 被 超 平面 错误 划分 的 离散 样本 增加 惩罚 项 。 


最 后 需要 强调 一 点 ，SVM 基于 强大 的 数学 工具 ， 在 处 理 超 高 维 空间 的 特征 时 效果 很 好 。 实 
践 表明 ， 当 特征 空间 的 维度 超过 样本 数量 时 , SVM 的 效果 是 最 好 的 。 此 外 ，SVM 占用 内 存 很 少 ， 
为 它 只 需要 存放 支持 向 量 ( 而 最 邻近 法 等 算法 则 需要 将 全 部 样本 点 存放 在 内 存 中 )。 

































































14.4.4 扩展 阅读 


构建 分 类 器 时 ， 将 方向 梯度 直方 图 和 SVM 结合 使 用 的 效果 很 好 。 原 因 之 一 是 HOG 可 以 看 
作 是 一 个 鲁 棒 的 高 维 描述 子 ， 能 准确 反映 一 个 类 别 的 本 质 特 征 。HOG-SVM 分 类 需 已 经 有 很 多 成 
功 的 应 用 案例 ， 例 如 行人 检测 。 

最 后 ， 作 为 本 书 的 结尾 ,本 节 将 讨论 机 器 学 习 的 最 新 趋势 ， 它 将 为 计算 机 视觉 和 人 工 智 能 带 
来 革命 性 的 变化 。 

1. HOG 的 可 视 化 

HOG 是 根据 单元 格 创建 的 ， 这 些 单元 格 组 合成 区 块 ， 并 且 区 块 之 间 可 以 重 厂 ， 因 此 很 难 对 
它 进行 直观 显示 。 不 过 可 以 通过 显示 每 个 单元 格 的 直方 图 来 表示 HOG。 显 示 方 向 直方 图 时 ,不 
用 与 箱子 方向 一 致 的 柱状 图 ， 而 是 采用 更 加 直观 的 星 形 图 ,每 个 线条 的 方向 与 箱子 对 应 ， 长 度 与 
箱子 数量 成 正比 。 可 以 用 这 种 方法 在 图 像 上 绘制 HOG。 































































































| HOG image = x 

















每 个 单元 格 的 HOG 都 可 以 由 一 个 简单 的 函数 产生 ， 函 数 输入 为 一 个 指向 直方 图 的 迭代 器 。 
然后 显示 每 个 箱子 对 应 的 特定 方向 和 长 度 的 线条 : 
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// 画 出 一 个 单元 格 的 HOG 
void drawHOG (std: :vector<float>::const_iterator hog, 
// HOG 选 代 器 
int numberOfBins，// HOG 中 的 箱子 数量 
cv::Mat &image，// 单元 格 的 图 像 
float scale=1.0) { // 长 度 缩 放 比 例 





Sonst TIoat PES a141592.7; 

float binStep = PI / numberOfBins; 
float maxLength = image.rows; 
float cx = image.cols / 2.; 

float cy = image.rows / 2.; 


// 逐个 箱子 
for (int bin = 0; bin < numberOfBins; bin++) { 


// 箱子 方向 

float angle = bin*binSstep; 

float qirX = cos(angle); 

float dirY = sin(angle); 

// 线条 长 度 ， 与 箱子 大 小 成 正比 

float length = 0.5*maxLength* * (hog+bin); 
/ 画 线条 


loat xl = cx - QirX * length * scale; 

loat yl = cy - dirY * length * scale; 

loat x2 = cx + QirX * length * scale; 

loat y2 = cy + dirY * length * scale; 
cv::line(image, cv::Point (xl, yl1), cv::Point (x2, y2), 
CV_RGB(255;,. 255, 295)., 1)3 
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} 
HOG 可 视 化 函数 可 以 对 每 个 单元 格调 用 上 面 的 函数 : 


// 在 图 像 上 绘制 HOG 

void drawHOGDescriptors(const cv::Mat &image，// 输入 图 像 
cv::Mat &hogImage，// 结果 HOG 图 像 
cv::Size cellSize，// 每 个 单元 格 的 大 小 (忽略 区 块 ) 
int nBins) { // 箱子 数量 











// 区 块 大 小 等 于 图 像 大 小 
cV::HOGDescriptor hog ( 
cv::Size( (image.cols / cellSize.width) * cellSize.width, 
(image.rows / cellSize.height) * cellSize.height), 
cv::Size( (image.cols / cellSize.width) * cellSize.width, 
( 


image.rows / cellSize.height) * cellSize.height), 


cellSize, // 区 块 步 长 (这 里 只 有 一 个 区 块 ) 
cellSize, // 单元 格 大 小 
nBins); // 箱子 数量 


// 计算 HOG 
std: :vector<float> descriptors; 
hog.compute (image, descriptors); 
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于 Ga Seale=: 2 0../. 舍 
std: :max_element (descriptors.begin(),descriptors.end()); 
hogImage.create(image.rows, image.cols, CV_8U); 
std::vector<float>::const_iterator itDesc= descriptors.begin(); 
for (int i = 0; i < image.rows / cellSize.height; i++) { 
for (int j = 0; j < image.cols / cellSize.width; j++) { 
// 画 出 每 个 单元 格 
hogImage (cv: :Rect (j*cellSize.width, i*cellSize.height, 
cellSize.width, cellSize.height)); 
drawHOG (itDesc, nBins, 
hogImage (cv: :Rect (j*cellSize.width, 
i*cellSize.height, 
cellSize.width, cellSize.height)), 
scale); 
itDesc += nBins; 
} 
} 
} 


这 个 函数 计算 的 HOG 描述 子 有 固定 的 单元 格 大 小 ,但 只 有 一 个 很 大 的 区 块 ( 即 区 块 与 图 像 
的 大 小 相等 ) 这 种 模型 避免 了 每 个 区 块 归 一 化 的 影响 。 


2. 行人 检测 


OpenCV 提供 了 一 个 基于 HOG 和 SVM 且 经 过 训练 的 行人 检测 需 。 和 上 一 节 的 级 联 分 类 器 一 
样 ， 可 以 用 这 个 SVM 分 类 器 以 不 同 尺度 的 窗口 扫描 图 像 ， 在 完整 的 图 像 中 检测 特定 物体 。 只 需 
构建 分 类 器 并 进行 检测 即 可 : 


// 创建 检测 器 

std: :vector<cv::Rect> peoples; 

cv: :HOGDescriptor peopleHog; 
peopleHog.setSVMDetector!( 

cv: :HOGDescriptor::getDefaultPeopleDetector()); 
// 检测 图 像 中 的 行人 
peopleHog.detectMultiScale(myImage，// 输入 图 像 























peoples, // 输出 算 形 列表 
Qs // 判 断 检测 结果 是 否 有 效 的 阅 值 
cv::Size(4, 4), // 窗口 步 长 
cv::Size(32，32)， // 填充 图 像 

i // 缩放 比例 

2); // 分 组 阅 值 





























窗口 步 长 决定 了 这 个 128x64 的 模板 在 图 像 上 移动 的 方式 〈 这 里 是 水 平和 垂直 方向 每 次 移动 
4 个 像素 )。 步 长 越 大 , 检测 速度 就 越 快 (因为 计算 的 窗口 少 ) 但 是 可 能 会 丢失 窗口 之 间 的 行人 。 
填充 图 像 参 数 只 是 为 了 在 图 像 边 框 上 添加 一 些 像素 ， 以 便 检测 到 图 像 边缘 的 行人 。SVM 分 类 器 
的 标准 阔 值 是 0( 1 表示 正 样 本 ，-1 表示 负 样 本 )。 如 果 你 要 确保 检测 到 的 图 片 一 定 有 一 个 人 ， 
可 以 提高 阔 值 ( 这 意味 着 提高 检测 准确 度 ， 但 可 能 会 漏 掉 一 些 人 ) 反之 ， 如 果 要 确保 检测 到 所 
有 行人 ( 即 希 望 有 较 高 的 召回 率 )， 那 就 要 降低 阔 值 ， 但 这 样 可 能 会 有 更 多 的 错误 结果 。 
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下 图 是 检测 结果 。 











@ People detection 











有 一 点 很 重要 , 在 完整 的 图 像 上 使 用 分 类 器 时 ,会 在 连续 的 位 置 上 使 用 多 个 窗口 , 这样 就 会 
在 正 样本 附近 得 到 多 个 检测 结果 。 当 同一 位 置 上 有 两 个 或 两 个 以 上 矩形 时 ， 最 好 只 保留 一 个 。 郴 
数 cv: :groupRectangles 可 以 把 位 置 相近 、 大 小 相似 的 矩形 合并 ( aetectMultiscale 会 自 
动 调用 该 函数 )。 实 际 上 ， 如 果 在 同一 位 置 检测 到 多 个 结果 ， 甚 至 可 以 据 此 判定 这 个 位 置 真 的 有 
正 实例 。 基 于 这 种 现象 ，cv: :groupRectangles 函数 中 可 以 设 定 一 个 最 小 集群 值 , 超过 这 个 值 
就 判定 结果 为 真实 的 ( 孤立 的 检测 结果 将 会 被 丢弃 ), 这 是 aetectMultiscale 的 最 后 一 个 参数 ， 
设 为 0 表示 保留 所 有 检测 结果 (不 分 组 )。 上 述 例子 采用 该 参数 ， 得 到 的 结果 如 下 所 示 。 























@ People detection 








3. 深度 学 习 与 卷 积 神经 网 络 

说 到 机 器 学 习 , 就 不 能 不 提 到 深度 卷 积 神经 网 络 。 采 用 深度 卷 积 神经 网 络 处 理 计算 机 视觉 的 
分 类 问题 已 经 获得 了 极 大 成 功 。 它 处 理 实际 问题 的 效果 非常 好 , 为 很 多 前 所 未 有 的 应 用 程序 打开 
了 大 门 。 


深度 学 习 的 理论 基础 是 20 世纪 50 年 代 后 期 引入 的 神经 网 络 。 它 现在 为 何如 此 引 人 注 目 ? 主 
要 有 两 个 原因 。 首 先 ， 如 今 的 计算 能 力 已 经 足以 支撑 大 型 神经 网 络 ， 解 决 一 些 高 难度 的 问题 。 第 
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一 代 神 经 网 络 ( 感知 器 ) 只 有 一 层 , 可 调节 的 权重 参数 也 很 少 ; 而 现在 的 神经 网 络 可 以 有 几 百 层 ， 
更 有 数 以 百 万 计 的 优化 参数 ( 故 名 深度 神经 网 络 )。 第 二 ， 现 在 有 海量 数据 可 用 于 训练 。 在 实际 
应 用 中 , 深度 神经 网 络 要 想得到 最 佳 效 果 ， 可 能 需要 上 千 力 至 百 万 个 带 标注 的 样本 ( 因为 需要 优 
化 的 参数 非常 多 )。 


最 常见 的 深度 神经 网 络 就 是 卷 积 神经 网 络 ( Convolutional Neural Networks，CNN )。 从 名 称 
就 能 看 出 ， 它 基于 卷 积 运算 ( 详情 请 参见 第 6 章 )。 它 的 学 习 参 数 就 是 组 成 网 络 的 滤波 器 内 核 的 
数值 。 滤 波 器 被 分 成 很 多 层 ， 前 面 的 层 负责 提取 基本 形状 ( 例如 线条 和 角 点 )， 后 面 的 层 负责 进 
一 步 检测 更 复杂 的 图 案 ( 例如 人 脸 检测 的 眼睛 、 嘴 巴 、 头 发 等 )。 

OpenCV 3 中 有 一 个 深度 神经 网 络 模 块 ， 但 它 主要 用 来 导入 用 其 他 工具 训练 得 到 的 深度 神经 


网 络 ， 这 些 工具 包括 TensorFlow 、Caffe 、Torch 等 。 要 开发 先进 的 计算 机 视觉 应 用 程序 ， 就 一 定 
要 了 解 深度 学 习 理 论 和 相关 的 工具 。 























































































































14.4.5 “参阅 


D 9.3 节 介 绍 了 与 HOG 非常 相似 的 SIFT 描述 子 。 

口 N. Dalal 和 B. Triggs 于 2005 年 发 表 在 Computer Vision and Pattern Recognition conference 
上 的 “Histograms of Oriented Gradients for Human Detection” 是 用 方向 梯度 直方 图 进行 行 
人 检测 的 经 典 论文 。 

口 Y. LeCun、Y. Bengio 和 G. Hinton 于 2015 年 发 表 在 Nature 第 521 期 的 “Deep Learning” 是 

有 关 深 度 学 习 的 极 好 入 门 资 料 。 
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作为 人 工 智能 的 “眼睛 ”， 计 算 机 视觉 技术 一 直 备 受 关注 ， 辅 助 驾驶 、 视 频 监控 等 相关 应 用 也 越 
来 越 多 。 流 行 的 开源 程序 库 OpenCyV 无疑 是 开发 智能 计算 机 视觉 程序 的 不 二 选择 。 它 包含 500 多 个 用 
于 图 像 和 视频 分 析 的 优化 算法 ，2013 年 升级 的 OpenCV 3 版 本 在 易 用 性 上 也 有 了 极 大 提升 。 


本 书 系统 介绍 OpenCV 3， 带 领 读者 由 浅 入 深 地 了 解 如 何 开 发 计算 机 视觉 程序 。 作 者 从 构建 可 以 读 
取 并 显示 图 像 的 简单 应 用 开始 ， 解 释 和 探讨 了 图 形 和 图 像 识别 的 具体 方法 ， 对 机 器 学 习 和 目标 识别 等 
当前 流行 的 主题 也 有 所 介绍 。 
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